首页 /研究 /面向第一人称操作的视觉轨迹预测的空间提示方法
MANIPULATION开放获取

面向第一人称操作的视觉轨迹预测的空间提示方法

Yifan Li, Xinyu Zhou, Yunhao Ge, Yu Kong

2026

摘要

本文首次形式化定义了空间提示视觉轨迹预测(SP-VTP)问题,通过初始空间提示(如边界框或点)指定任务目标,从第一人称视频流中预测未来末端执行器轨迹。提出了SPOT模型,结合任务编码器、观测编码器和轨迹生成器,在跨场景轨迹预测上优于非提示或单源提示基线。

关键词

spatial promptingvisual trajectory predictionegocentric manipulationobject-target groundingend-effector motion forecasting

相关论文