LEARNING
双优势场
Alexey Zemtsov, Maxim Bobrin, Alexander Nikulin, Dmitry V. Dylov, Fakhri Karray, Vladislav Kurenkov, Martin Takáč, Arip Asadulaev
- 发表年份
- 2026
- 访问权限
- 开放获取
摘要
本文提出双优势场(DAF)方法,将双线性对偶值模型转化为局部优势信号,用于离线目标条件强化学习中的策略提取。DAF通过学习动作效应模型预测折扣特征位移,并利用该位移与目标方向的对齐程度来评分动作,在可实现情况下该评分等价于目标条件贝尔曼优势,从而保证局部策略改进。
关键词
goal-conditioned RLbilinear dual modeladvantage functionpolicy extractionoffline RL
相关论文
LEARNING
📊 8,465 引用
The Organization of Behavior
D. O. Hebb
2005
LEARNING
📊 7,678 引用
Fractional Brownian Motions, Fractional Noises and Applications
Benoît B. Mandelbrot, John W. Van Ness
1968
LEARNING
开放获取📊 7,484 引用
Review of deep learning: concepts, CNN architectures, challenges, applications, future directions
Laith Alzubaidi, Jinglan Zhang, Amjad J. Humaidi 等 10 位作者
2021
LEARNING
📊 4,608 引用
A guide to deep learning in healthcare
Andre Esteva, Alexandre Robicquet, Bharath Ramsundar 等 10 位作者
2018