AgentGrounder：基于多模态语言模型的零样本3D视觉点云定位

Cuong Huynh, Maxim Popov, Denis Gridusov, Sergey Kolyubin

摘要

本文提出AgentGrounder，一种零样本3D视觉定位框架，可直接在彩色点云上操作而无需任务特定训练。该方法通过离线构建对象查找表和在线工具驱动代理，有效提升了定位精度和上下文窗口效率。

3D视觉定位零样本学习多模态语言模型点云具身AI

PERCEPTION

📊 22,245 引用

1995

PERCEPTION

📊 14,348 引用

Andreas Geiger, P Lenz, R. Urtasun

2012

PERCEPTION

开放获取📊 9,777 引用

Martı́n Abadi, Ashish Agarwal, Paul Barham 等 20 位作者

2016

PERCEPTION

📊 9,681 引用

Andreas Geiger, Philip Lenz, Christoph Stiller 等 4 位作者

2013