LOCOMOTION开放获取
弥合差距:实现高性能腿式运动的软演员-评论家算法
Gianluca Sabatini, Chenhao Li, Marco Hutter
2026
摘要
本文揭示了软演员-评论家(SAC)算法在大规模并行训练中性能不如近端策略优化(PPO)的根本原因,并提出了策略初始化、超时感知评论家目标及多步回报估计等针对性改进,使得SAC在多种腿式机器人平台上完全弥合了与PPO的性能差距。
关键词
Soft Actor-Criticlegged locomotionsim-to-realsample efficiencyreinforcement learning
相关论文
LOCOMOTION
开放获取📊 0 引用
学习平衡电机热安全与四足运动性能的残差策略
Yuhang Wan, Weixian Lin, Letian Qian 等 8 位作者
2026
LOCOMOTION
开放获取📊 0 引用
一种具有闩锁介导的软体双稳态机构的仿生水下机器人
Chongze Bi, Wenjie Wu, Zonghao Zuo 等 4 位作者
2026
LEARNING
开放获取📊 0 引用
基于随机解耦策略梯度的高效在线视觉强化学习
Haoxiang You, Yilang Liu, Davis Zong 等 8 位作者
2026
PERCEPTION
开放获取
FoundObj: 自监督基础模型作为无标签3D目标分割的奖励
Zihui Zhang, Zhixuan Sun, Yafei Yang 等 6 位作者
2026