LEARNING开放获取
比率方差正则化策略优化
Yu Luo, Shuo Han, Yihan Hu, Lei Lv, Huaping Liu, Fuchun Sun, Jianye Hao, Dong Li
2026
摘要
提出了一种通过约束策略比率方差来近似信任区域约束的新方法,避免了传统PPO中启发式裁剪带来的梯度信号损失。该方法在多种LLM规模和机器人控制任务上均取得了显著性能提升,特别是在小模型和稀疏奖励环境中表现突出。
关键词
reinforcement learningpolicy optimizationratio-variance regularizationtrust regionprimal-dual optimization
相关论文
LEARNING
开放获取📊 1 引用
面向学习与规划的并行可微可达性:具有认证神经动力学与控制器的系统
Keyi Shen, Glen Chou
2026
LEARNING
开放获取📊 0 引用
信任区域Q伴随匹配
Yonghoon Dong, Kyungmin Lee, Changyeon Kim 等 5 位作者
2026
LOCOMOTION
开放获取📊 0 引用
学习平衡电机热安全与四足运动性能的残差策略
Yuhang Wan, Weixian Lin, Letian Qian 等 8 位作者
2026
LEARNING
开放获取📊 0 引用
操控有形虚拟物体动力学以促进精确力量生成的学习
Alberto Garzás-Villar, Alba Riera-Cardona, Alexis Derumigny 等 6 位作者
2026