首页 /研究 /比率方差正则化策略优化
LEARNING开放获取

比率方差正则化策略优化

Yu Luo, Shuo Han, Yihan Hu, Lei Lv, Huaping Liu, Fuchun Sun, Jianye Hao, Dong Li

2026

摘要

提出了一种通过约束策略比率方差来近似信任区域约束的新方法,避免了传统PPO中启发式裁剪带来的梯度信号损失。该方法在多种LLM规模和机器人控制任务上均取得了显著性能提升,特别是在小模型和稀疏奖励环境中表现突出。

关键词

reinforcement learningpolicy optimizationratio-variance regularizationtrust regionprimal-dual optimization

相关论文