LEARNING开放获取
面向领域自适应的密集奖励强化学习代码生成方法
Erfan Aghadavoodi Jolfaei, Daniel Maninger, Abhinav Anand, Mert Tiftikci, Mira Mezini
2026
摘要
提出了一种基于近端策略优化的强化学习框架,用于微调预训练的大语言模型,使其生成的代码满足语法、功能正确性、安全性及领域特定约束。在通用代码生成和机器人程序合成任务上,该方法显著提升了功能正确性和模拟器可执行性。
关键词
reinforcement learningcode generationlarge language modelsproximal policy optimizationrobotics
相关论文
LEARNING
开放获取📊 1 引用
面向学习与规划的并行可微可达性:具有认证神经动力学与控制器的系统
Keyi Shen, Glen Chou
2026
LEARNING
📊 0 引用
基于深度强化学习和动态图神经网络的多任务机器人调度代理
Hedi Boukamcha, Anas Neumann, Monia Rekik 等 6 位作者
Robotics and Computer-Integrated Manufacturing · 2026
LEARNING
📊 0 引用
人工智能增强的智能焊接岛:基础模型革新制造业
Xiwei Wu, Wei Wu, Qiqi Chen 等 9 位作者
Robotics and Computer-Integrated Manufacturing · 2026
MANIPULATION
📊 0 引用
PAEAR:基于强化学习的点云区域探索与主动识别方法用于机器人焊接
Yong Tao, Donghua Tan, Fan Ren 等 9 位作者
Robotics and Computer-Integrated Manufacturing · 2026