首页 /研究 /通过逆动力学学习缓解视觉-语言-动作模型中的状态混淆
MANIPULATION

通过逆动力学学习缓解视觉-语言-动作模型中的状态混淆

Kyujin Lee, Injae Kim, Jihwan Park, Yejun Ju, Minseok Joo, Hyunwoo J. Kim

发表年份
2026
引用次数
0
访问权限
开放获取

摘要

本文提出在视觉-语言-动作模型中引入逆动力学学习作为辅助目标,通过预测当前与未来观测之间的动作,直接监督视觉编码器捕获细粒度视觉差异,从而缓解状态混淆问题。该方法通过伪反向监督进一步暴露编码器对动作关键视觉特征的敏感性,提升了低层控制性能。

关键词

state aliasinginverse dynamicsvision-language-actionrobot manipulationvisual representation

相关论文

查看 MANIPULATION 分类全部论文