首页 /研究 /基于混合梯度的离散-连续混合动作空间策略优化
LEARNING开放获取

基于混合梯度的离散-连续混合动作空间策略优化

Matias Alvo, Daniel Russo, Yash Kanoria

2026

摘要

本文提出混合策略优化(HPO)方法,通过结合路径梯度和得分函数梯度,在离散-连续混合动作空间中实现无偏梯度估计。实验表明,HPO在库存控制和切换线性二次调节器问题上显著优于PPO算法。

关键词

reinforcement learninghybrid action spacespolicy optimizationmixed gradientsdifferentiable simulation

相关论文