信任区域Q伴随匹配

Yonghoon Dong, Kyungmin Lee, Changyeon Kim, Jaehyuk Kim, Jinwoo Shin

摘要

本文提出信任区域Q伴随匹配（TRQAM），一种稳定的离策略微调算法，通过投影对偶下降自适应控制预训练流策略的路径空间KL散度。实验表明，TRQAM在50个OGBench任务上显著优于现有方法，离线RL成功率提升至68%。

off-policy reinforcement learningtrust regionflow policiesadjoint matchingprojected dual descent

LEARNING

📊 8,465 引用

D. O. Hebb

2005

LEARNING

📊 7,678 引用

Benoît B. Mandelbrot, John W. Van Ness

1968

LEARNING

开放获取📊 7,484 引用

Laith Alzubaidi, Jinglan Zhang, Amjad J. Humaidi 等 10 位作者

2021

LEARNING

📊 4,608 引用

Andre Esteva, Alexandre Robicquet, Bharath Ramsundar 等 10 位作者

2018