首页 /研究 /XQCfD：利用先验数据和先验策略加速快速Actor-Critic算法

MANIPULATION

XQCfD：利用先验数据和先验策略加速快速Actor-Critic算法

Daniel Palenicek, Florian Vogt, Joe Watson, Ingmar Posner, Danica Kragic, Jan Peters

发表年份: 2026
访问权限: 开放获取

摘要

该论文提出XQCfD算法，通过使用增强回放缓冲区、预训练策略和固定策略架构，有效利用演示数据提升强化学习的样本效率。在Adroit、Robomimic和MimicGen基准测试的复杂操作任务中，XQCfD以低更新-数据比和无集成网络实现了最先进性能。

关键词

reinforcement learningsample efficiencydemonstration dataactor-criticmanipulation

相关论文

MANIPULATION

📊 7,533 引用

Real-Time Obstacle Avoidance for Manipulators and Mobile Robots

Oussama Khatib

1986

MANIPULATION

📊 6,720 引用

A Mathematical Introduction to Robotic Manipulation

Richard M. Murray, Zexiang Li, Shankar Sastry

2017

MANIPULATION

📊 3,821 引用

Robot dynamics and control

Mark W. Spong

1989

MANIPULATION

📊 3,499 引用

A tutorial on visual servo control

Seth Hutchinson, Gregory D. Hager, Peter Corke

1996

查看 MANIPULATION 分类全部论文