Qwen-VLA：跨任务、环境和机器人本体的统一视觉-语言-动作建模

Qiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang, Jie Zhang, Xintong Hu, Xuhong Huang, Pei Lin, Junyang Lin, Dayiheng Liu, Shuai Bai, Jingren Zhou, Jiazhao Zhang, Haoqi Yuan, Gengze Zhou, Hang Yin

发表年份: 2026
访问权限: 开放获取

摘要

本文提出Qwen-VLA，一种统一的具身基础模型，通过DiT动作解码器将视觉-语言建模扩展到连续动作和轨迹生成。该模型通过大规模联合预训练和具身感知提示条件，实现了跨任务、环境和机器人本体的统一决策。

关键词

vision-language-actionembodied intelligenceunified modelrobot manipulationnavigation

Qwen-VLA：跨任务、环境和机器人本体的统一视觉-语言-动作建模

摘要

关键词

相关论文

Real-Time Obstacle Avoidance for Manipulators and Mobile Robots

A Mathematical Introduction to Robotic Manipulation

Robot dynamics and control

A tutorial on visual servo control