首页 /研究 /DEFLECT:通过流匹配似然估计反事实调优实现延迟鲁棒的VLA策略执行
LEARNING开放获取

DEFLECT:通过流匹配似然估计反事实调优实现延迟鲁棒的VLA策略执行

Yixiang Zhu, Yonghao Chen, Rui Meng, Jingyu Guo, Jiaxiang Zou, Zijie Yang, Taowen Wang, Xinyu Chen

2026

摘要

本文提出DEFLECT方法,通过离线后训练将推理延迟转化为无标签偏好信号,解决视觉-语言-动作(VLA)策略在异步部署中因预测与执行错位导致的性能崩溃问题。该方法在高速延迟场景下将成功率提升6.4%,并成功迁移至真实尺度VLA系统。

关键词

VLA policyasynchronous inferencedelay robustnesscounterfactual tuningflow matching

相关论文