基于混合梯度的离散-连续混合动作空间策略优化

Matias Alvo, Daniel Russo, Yash Kanoria

摘要

本文提出混合策略优化（HPO）方法，通过结合路径梯度和得分函数梯度，在离散-连续混合动作空间中实现无偏梯度估计。实验表明，HPO在库存控制和切换线性二次调节器问题上显著优于PPO算法。

reinforcement learninghybrid action spacespolicy optimizationmixed gradientsdifferentiable simulation

LEARNING

📊 8,465 引用

D. O. Hebb

2005

LEARNING

📊 7,678 引用

Benoît B. Mandelbrot, John W. Van Ness

1968

LEARNING

开放获取📊 7,484 引用

Laith Alzubaidi, Jinglan Zhang, Amjad J. Humaidi 等 10 位作者

2021

LEARNING

📊 4,608 引用

Andre Esteva, Alexandre Robicquet, Bharath Ramsundar 等 10 位作者

2018