首页 /研究 /Evo-Depth:一种轻量级深度增强的视觉-语言-动作模型
MANIPULATION开放获取📊 0 引用

Evo-Depth:一种轻量级深度增强的视觉-语言-动作模型

Tao Lin, Yuxin Du, Jiting Liu, Nuobei Zhu, Yunhe Li, Yuqian Fu, Yinxinyu Chen, Hongyi Cai, Zewei Ye, Bing Cheng, Kai Ye, Yiran Mao, Yilei Zhong, MingKang Dong, Junchi Yan, Gen Li, Bo Zhao

2026

摘要

本文提出Evo-Depth,一种轻量级深度增强的视觉-语言-动作框架,通过隐式深度编码模块从多视图RGB图像中提取紧凑深度特征,在不增加额外传感器或降低部署效率的情况下增强空间感知的机器人操作。该方法解决了现有VLA模型在精确空间理解上的不足,并避免了传统3D输入方法带来的系统复杂性和噪声敏感问题。

关键词

depth estimationvision-language-actionrobotic manipulationlightweightspatial understanding

相关论文