首页 /研究 /弥合差距:实现高性能腿式运动的软演员-评论家算法
LOCOMOTION开放获取

弥合差距:实现高性能腿式运动的软演员-评论家算法

Gianluca Sabatini, Chenhao Li, Marco Hutter

2026

摘要

本文揭示了软演员-评论家(SAC)算法在大规模并行训练中性能不如近端策略优化(PPO)的根本原因,并提出了策略初始化、超时感知评论家目标及多步回报估计等针对性改进,使得SAC在多种腿式机器人平台上完全弥合了与PPO的性能差距。

关键词

Soft Actor-Criticlegged locomotionsim-to-realsample efficiencyreinforcement learning

相关论文