首页 /研究 /3DThinkVLA：通过3D思维引导的协同训练赋予视觉-语言-动作模型潜在3D先验

LEARNING

3DThinkVLA：通过3D思维引导的协同训练赋予视觉-语言-动作模型潜在3D先验

Jiaxin Shi, Xidong Zhang, Fucai Zhu, Zhe Li, Siyu Zhu, Weihao Yuan

发表年份: 2026
访问权限: 开放获取

摘要

本文提出了一种3D思维引导的协同训练框架，使视觉-语言-动作（VLA）模型能够在动作预测过程中隐式地进行3D空间推理。通过解耦3D几何感知与空间推理能力，并在不同特征层级注入，该框架无需修改VLM架构即可获得几何先验，并利用共享推理锚点令牌弥合提示导致的推理差距。

关键词

3D spatial reasoningvision-language-actionco-traininglatent priorsrobotics

相关论文

LEARNING

📊 8,465 引用

The Organization of Behavior

D. O. Hebb

2005

LEARNING

📊 7,678 引用

Fractional Brownian Motions, Fractional Noises and Applications

Benoît B. Mandelbrot, John W. Van Ness

1968

LEARNING

开放获取📊 7,484 引用

Review of deep learning: concepts, CNN architectures, challenges, applications, future directions

Laith Alzubaidi, Jinglan Zhang, Amjad J. Humaidi 等 10 位作者

2021

📄 PDF 详情 →

LEARNING

📊 4,608 引用

A guide to deep learning in healthcare

Andre Esteva, Alexandre Robicquet, Bharath Ramsundar 等 10 位作者

2018

查看 LEARNING 分类全部论文