首页 /研究 /XQCfD:利用先验数据和先验策略加速快速Actor-Critic算法
MANIPULATION开放获取

XQCfD:利用先验数据和先验策略加速快速Actor-Critic算法

Daniel Palenicek, Florian Vogt, Joe Watson, Ingmar Posner, Danica Kragic, Jan Peters

2026

摘要

该论文提出XQCfD算法,通过使用增强回放缓冲区、预训练策略和固定策略架构,有效利用演示数据提升强化学习的样本效率。在Adroit、Robomimic和MimicGen基准测试的复杂操作任务中,XQCfD以低更新-数据比和无集成网络实现了最先进性能。

关键词

reinforcement learningsample efficiencydemonstration dataactor-criticmanipulation

相关论文