首页 /研究 /自适应数据拟合Q迭代的测度论有限样本理论
LEARNING开放获取

自适应数据拟合Q迭代的测度论有限样本理论

Manuel Haussmann, Mustafa Mert Çelikok, Melih Kandemir

2026

摘要

本文提出一个统一的理论框架,将测度论、确定性误差传播和PAC泛化界相结合,为一般可测Borel空间上的拟合Q迭代(FQI)提供了有限样本自适应数据性能界。该工作弥合了强化学习理论与实际启发式算法之间的差距,对复杂非线性机器人系统的控制具有重要理论意义。

关键词

reinforcement learningfitted Q-iterationfinite-sample theoryadaptive datameasure theory

相关论文