首页 /研究 /Qwen-VLA:跨任务、环境和机器人本体的统一视觉-语言-动作建模
MANIPULATION

Qwen-VLA:跨任务、环境和机器人本体的统一视觉-语言-动作建模

Qiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang, Jie Zhang, Xintong Hu, Xuhong Huang, Pei Lin, Junyang Lin, Dayiheng Liu, Shuai Bai, Jingren Zhou, Jiazhao Zhang, Haoqi Yuan, Gengze Zhou, Hang Yin

发表年份
2026
访问权限
开放获取

摘要

本文提出Qwen-VLA,一种统一的具身基础模型,通过DiT动作解码器将视觉-语言建模扩展到连续动作和轨迹生成。该模型通过大规模联合预训练和具身感知提示条件,实现了跨任务、环境和机器人本体的统一决策。

关键词

vision-language-actionembodied intelligenceunified modelrobot manipulationnavigation

相关论文

查看 MANIPULATION 分类全部论文