首页 /研究 /基于随机解耦策略梯度的高效在线视觉强化学习
LEARNING开放获取📊 0 引用

基于随机解耦策略梯度的高效在线视觉强化学习

Haoxiang You, Yilang Liu, Davis Zong, Qian Wang, Teeratham Vitchutripop, Qi Wang, Daniel Rakita, Ian Abraham

2026

摘要

提出随机解耦策略梯度(SDPG)方法,通过轨迹滚动的随机扰动估计策略梯度,大幅减少批渲染环境数量与计算内存开销。在视觉MuJoCo基准测试中,SDPG在训练时间、内存使用和奖励方面均优于基线方法,并展示了从仿真到真实硬件的有效迁移。

关键词

visual reinforcement learningpolicy gradientsample efficiencysim-to-real

相关论文