PERCEPTION开放获取📊 0 引用
LocateAnything:基于并行框解码的快速高质量视觉语言定位
Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu
2026
摘要
本文提出LocateAnything框架,通过并行框解码(PBD)将边界框等几何元素作为原子单元一步解码,保持了几何一致性并实现了并行化,显著提升了解码吞吐量和定位精度。同时构建了包含1.38亿训练样本的大规模数据集,在多个基准上实现了速度与精度的前沿性能。
关键词
parallel box decodingvision-language groundingvisual detectiongenerative frameworklarge-scale dataset
相关论文
PERCEPTION
开放获取📊 0 引用
基于气体断层扫描的无人机火山气体测绘方法
Marius Schaab, Niklas Karbach, Antonia Rabe 等 8 位作者
2026
PERCEPTION
开放获取📊 0 引用
DelowlightSplat: 面向低光照3D场景重建的前馈式高斯泼溅方法
Fuzhen Jiang, Zengtian Xie, Zhuoran Li
2026
PERCEPTION
开放获取📊 0 引用
R5DGS:基于刚体约束的语义感知4D高斯泼溅高效动态场景重建
Denis Gridusov, Maxim Popov, Sergey Kolyubin
2026
PERCEPTION
开放获取📊 0 引用
AdaFuse-Det: 面向低光照RGB图像鲁棒目标检测的事件相机自适应跨模态融合
Raju Imandi, Chethana B, Bharatesh Chakravarthi 等 6 位作者
2026