对数增长控制的策略梯度样本复杂度

Qiuhua Pan, Yukai Shen, Liwei Zhang, Cailian Chen, Xinping Guan

摘要

本文研究了针对对数增长控制的策略梯度样本复杂度问题，揭示了最优增益处的奇异结构（尖点障碍），并利用柯西核的对称性通过反射配对消除发散部分，从而解决了梯度估计方差无限大的困难。

policy gradientsample complexitylog-growth controlsingularityCauchy principal value

LEARNING

📊 8,465 引用

D. O. Hebb

2005

LEARNING

📊 7,678 引用

Benoît B. Mandelbrot, John W. Van Ness

1968

LEARNING

开放获取📊 7,484 引用

Laith Alzubaidi, Jinglan Zhang, Amjad J. Humaidi 等 10 位作者

2021

LEARNING

📊 4,608 引用

Andre Esteva, Alexandre Robicquet, Bharath Ramsundar 等 10 位作者

2018