首页 /研究 /面向领域自适应的密集奖励强化学习代码生成方法
LEARNING开放获取

面向领域自适应的密集奖励强化学习代码生成方法

Erfan Aghadavoodi Jolfaei, Daniel Maninger, Abhinav Anand, Mert Tiftikci, Mira Mezini

2026

摘要

提出了一种基于近端策略优化的强化学习框架,用于微调预训练的大语言模型,使其生成的代码满足语法、功能正确性、安全性及领域特定约束。在通用代码生成和机器人程序合成任务上,该方法显著提升了功能正确性和模拟器可执行性。

关键词

reinforcement learningcode generationlarge language modelsproximal policy optimizationrobotics

相关论文