首页 /研究 /SWEET:基于图像编辑的稀疏世界建模用于具身任务执行
MANIPULATION开放获取

SWEET:基于图像编辑的稀疏世界建模用于具身任务执行

Yiren Song, Yihan Wang, Xiyao Deng, Zhuoran Yan, Mike Zheng Shou

2026

摘要

该论文提出SWEET框架,利用图像编辑模型生成任务相关的稀疏关键帧,替代密集视频生成,从而高效预测机器人操作中的未来状态。实验表明,图像编辑模型在视觉保真度和推理成本上优于视频生成模型,结合语言指令和空间引导可实现一步式视觉规划。

关键词

image editingsparse world modelkeyframe predictionrobot manipulationvisual planning

相关论文