首页 /研究 /PROSE：基于视觉语言模型的无训练自我中心场景配准

PERCEPTION

PROSE：基于视觉语言模型的无训练自我中心场景配准

Zhiang Chen, Nahyuk Lee, Boyang Sun, Taein Kwon, Marc Pollefeys, Zuria Bauer, Sunghwan Hong

发表年份: 2026
引用次数: 0
访问权限: 开放获取

摘要

本文提出PROSE方法，利用预训练的视觉语言模型实现自我中心RGB图像序列的跨场景配准。通过将RGB序列提升为对象级3D场景图，并利用物体高度先验和相同/不同查询验证匹配，该方法无需训练即可实现鲁棒的刚性变换估计。

关键词

scene registrationvision-language modelsegocentric3D scene graphRGB-only

相关论文

PERCEPTION

📊 22,245 引用

Artificial intelligence: a modern approach

1995

PERCEPTION

📊 14,348 引用

Are we ready for autonomous driving? The KITTI vision benchmark suite

Andreas Geiger, P Lenz, R. Urtasun

2012

PERCEPTION

开放获取📊 9,777 引用

TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems

Martı́n Abadi, Ashish Agarwal, Paul Barham 等 20 位作者

2016

📄 PDF 详情 →

PERCEPTION

📊 9,681 引用

Vision meets robotics: The KITTI dataset

Andreas Geiger, Philip Lenz, Christoph Stiller 等 4 位作者

2013

查看 PERCEPTION 分类全部论文