首页 /研究 /3DThinkVLA:通过3D思维引导的协同训练赋予视觉-语言-动作模型潜在3D先验
LEARNING

3DThinkVLA:通过3D思维引导的协同训练赋予视觉-语言-动作模型潜在3D先验

Jiaxin Shi, Xidong Zhang, Fucai Zhu, Zhe Li, Siyu Zhu, Weihao Yuan

发表年份
2026
访问权限
开放获取

摘要

本文提出了一种3D思维引导的协同训练框架,使视觉-语言-动作(VLA)模型能够在动作预测过程中隐式地进行3D空间推理。通过解耦3D几何感知与空间推理能力,并在不同特征层级注入,该框架无需修改VLM架构即可获得几何先验,并利用共享推理锚点令牌弥合提示导致的推理差距。

关键词

3D spatial reasoningvision-language-actionco-traininglatent priorsrobotics

相关论文

查看 LEARNING 分类全部论文