首页 /研究 /自适应光滑切比雪夫注意力用于多目标策略优化
LEARNING开放获取📊 0 引用

自适应光滑切比雪夫注意力用于多目标策略优化

Alejandro Murillo-Gonzalez, Mahmoud Ali, Lantao Liu

2026

摘要

本文提出自适应光滑切比雪夫框架,通过动态调节优化曲率解决多目标强化学习中非凸帕累托前沿的收敛问题。在机器人隐身视觉搜索任务上验证了该方法能平衡目标冲突并提升优化稳定性。

关键词

multi-objective reinforcement learningPareto frontTchebycheff scalarizationgradient conflictrobotic visual search

相关论文