首页 /研究 /VisualThink-VLA:用于高效低延迟视觉-语言-动作策略的视觉中间推理
MANIPULATION

VisualThink-VLA:用于高效低延迟视觉-语言-动作策略的视觉中间推理

Mingjian Gao, Wenqiao Zhang, Yuqian Yuan, Yang Dai, Binhe Yu, Zheqi Lv, Haoyu Zheng, Jiaqi Zhu, Zhiqi Ge, Zixuan Wan, Siliang Tang, Yueting Zhuang

发表年份
2026
访问权限
开放获取

摘要

本文提出VisualThink-VLA框架,通过紧凑的视觉证据接口引导动作预测,避免文本推理的延迟和干扰。采用选择性路由机制学习视觉证据令牌,实现低延迟推理并保持高容量专业化,在多个基准和真实机器人上验证了有效性。

关键词

vision-language-actionvisual reasoninglow-latencyembodied controlselective routing

相关论文

查看 MANIPULATION 分类全部论文