Evo-Depth：一种轻量级深度增强的视觉-语言-动作模型

Tao Lin, Yuxin Du, Jiting Liu, Nuobei Zhu, Yunhe Li, Yuqian Fu, Yinxinyu Chen, Hongyi Cai, Zewei Ye, Bing Cheng, Kai Ye, Yiran Mao, Yilei Zhong, MingKang Dong, Junchi Yan, Gen Li, Bo Zhao

发表年份: 2026
引用次数: 0
访问权限: 开放获取

摘要

本文提出Evo-Depth，一种轻量级深度增强的视觉-语言-动作框架，通过隐式深度编码模块从多视图RGB图像中提取紧凑深度特征，在不增加额外传感器或降低部署效率的情况下增强空间感知的机器人操作。该方法解决了现有VLA模型在精确空间理解上的不足，并避免了传统3D输入方法带来的系统复杂性和噪声敏感问题。

关键词

depth estimationvision-language-actionrobotic manipulationlightweightspatial understanding

Evo-Depth：一种轻量级深度增强的视觉-语言-动作模型

摘要

关键词

相关论文

Real-Time Obstacle Avoidance for Manipulators and Mobile Robots

A Mathematical Introduction to Robotic Manipulation

Robot dynamics and control

A tutorial on visual servo control