首页 /研究 /双优势场
LEARNING

双优势场

Alexey Zemtsov, Maxim Bobrin, Alexander Nikulin, Dmitry V. Dylov, Fakhri Karray, Vladislav Kurenkov, Martin Takáč, Arip Asadulaev

发表年份
2026
访问权限
开放获取

摘要

本文提出双优势场(DAF)方法,将双线性对偶值模型转化为局部优势信号,用于离线目标条件强化学习中的策略提取。DAF通过学习动作效应模型预测折扣特征位移,并利用该位移与目标方向的对齐程度来评分动作,在可实现情况下该评分等价于目标条件贝尔曼优势,从而保证局部策略改进。

关键词

goal-conditioned RLbilinear dual modeladvantage functionpolicy extractionoffline RL

相关论文

查看 LEARNING 分类全部论文