首页 /研究 /AgentGrounder:基于多模态语言模型的零样本3D视觉点云定位
PERCEPTION开放获取

AgentGrounder:基于多模态语言模型的零样本3D视觉点云定位

Cuong Huynh, Maxim Popov, Denis Gridusov, Sergey Kolyubin

2026

摘要

本文提出AgentGrounder,一种零样本3D视觉定位框架,可直接在彩色点云上操作而无需任务特定训练。该方法通过离线构建对象查找表和在线工具驱动代理,有效提升了定位精度和上下文窗口效率。

关键词

3D视觉定位零样本学习多模态语言模型点云具身AI

相关论文