MANIPULATION开放获取
EXPO-FT: 面向视觉-语言-动作模型的样本高效强化学习微调
Perry Dong, Kuo-Han Hung, Tian Gao, Dorsa Sadigh, Chelsea Finn
2026
摘要
提出EXPO-FT系统,通过稳定、样本高效的强化学习微调预训练的VLA策略,在多种高精度操作任务中实现完美成功率,且仅需平均19.1分钟在线机器人数据。该方法优于从头训练的RL和现有VLA微调方法。
关键词
reinforcement learningfine-tuningvision-language-action modelssample efficiencymanipulation
相关论文
MANIPULATION
开放获取📊 0 引用
TCBiRRT:利用任务空间随机扩展的紧耦合双臂空间机械臂快速运动规划
Jiawei Zhang, Xinhao Miao, Jifeng Guo 等 5 位作者
2026
LOCOMOTION
开放获取📊 0 引用
学习平衡电机热安全与四足运动性能的残差策略
Yuhang Wan, Weixian Lin, Letian Qian 等 8 位作者
2026
MANIPULATION
开放获取📊 0 引用
用于抓取的目标姿态与形状估计:是否有效?
Pavan Karke, Kushal Shah, Gaurav Singh 等 6 位作者
2026
LEARNING
开放获取📊 0 引用
基于随机解耦策略梯度的高效在线视觉强化学习
Haoxiang You, Yilang Liu, Davis Zong 等 8 位作者
2026