首页 /研究 /基于评论引导的样本高效扩散强化学习
LEARNING

基于评论引导的样本高效扩散强化学习

Shutong Ding, Zejia Zhong, Zhongyi Wang, Ke Hu, Bikang Pan, Jingya Wang, Ye Shi

发表年份
2026
引用次数
0
访问权限
开放获取

摘要

本文提出CGPO方法,通过将训练无关的引导技术集成到扩散策略的去噪过程中,有效平衡探索与利用。该方法利用评论网络引导动作生成朝向高价值区域,减少获取高质量动作所需时间,提升最终性能。

关键词

diffusion policyreinforcement learningcritic guidanceexploration-exploitation balancesample efficiency

相关论文

查看 LEARNING 分类全部论文