刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

大型语言模型(LLMs)的进步在很大程度上推动了代码生成领域的发展。此前的研究中,强化学习(RL)与编译器的反馈信号被结合在一起,用于探索LLMs的输出空间,以优化代码生成的质量。

但当下还存在两个问题:

1. 强化学习探索很难直接适配到「复杂的人类需求」,即要求LLMs生成「长序列代码」;

2. 由于单元测试可能无法覆盖复杂的代码,因此使用未执行的代码片段来优化LLMs是无效的。

为了应对这些挑战,研究人员提出了一种名为StepCoder的新型强化学习框架,该框架由复旦大学、华中科技大学和皇家理工学院的专家共同开发。StepCoder包含两个关键组件,旨在改善代码生成的效率和质量。

1. CCCS通过将长序列代码生成任务分解为代码完成子任务课程来解决探索挑战;

2. FGO通过屏蔽未执行的代码段来优化模型,以提供细粒度优化。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

论文链接:https://arxiv.org/pdf/2402.01391.pdf

项目链接:https://github.com/Ablustrund/APPS_Plus

代码小浣熊 代码小浣熊

代码小浣熊是基于商汤大语言模型的软件智能研发助手,覆盖软件需求分析、架构设计、代码编写、软件测试等环节

代码小浣熊 51 查看详情 代码小浣熊

研究人员还构建了用于强化学习训练的APPS+数据集,手动验证以确保单元测试的正确性。

实验结果表明,该方法提高了探索输出空间的能力,并在相应的基准测试中优于最先进的方法。

StepCoder

在代码生成过程中,普通的强化学习探索(exploration)很难处理「奖励稀疏且延迟的环境」和涉及「长序列的复杂需求」。

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

在CCCS(Curriculum of Code Completion Subtasks)阶段,研究人员将复杂的探索问题分解为一系列子任务。利用标准解(canonical solution)的一部分作为提示(prompt),LLM可以从简单序列开始探索。

奖励的计算只与可执行的代码片段相关,因此用整个代码(图中红色部分)来优化LLM是不精确的(图中灰色部分)。

在FGO(Fine-Grained Optimization)阶段,研究人员对单元测试中未执行的tokens(红色部分)进行遮罩,只使用已执行的tokens(绿色部分)计算损失函数,从而可以提供细粒度的优化。

预备知识

假定刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习是用于代码生成的训练数据集,其中x、y、u分别表示人类需求(即任务描述)、标准解和单元测试样本。

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习是通过自动分析标准解yi的抽象语法树得出的条件语句列表,其中st和en分别表示语句的起始位置和结束位置。

对于人类需求x,其标准解y可表示为刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习;在代码生成阶段,给定人类需求x,最终状态是通过单元测试u的代码集合。

方法细节

StepCoder集成了两个关键组件:CCCS和FGO,其中CCCS的目的是将代码生成任务分解为代码完成子任务的课程,可以减轻RL中的探索挑战;FGO专为代码生成任务而设计,通过只计算已执行代码片段的损失来提供细粒度优化。

CCCS

在代码生成过程中,要解决复杂的人类需求,通常需要策略模型采取较长的动作序列。同时,编译器的反馈是延迟和稀疏的,也就是说,策略模型只有在生成整个代码后才会收到奖励。在这种情况下,探索非常困难。

该方法的核心是将这样一长串探索问题分解为一系列简短、易于探索的子任务,研究人员将代码生成简化为代码补全子任务,其中子任务由训练数据集中的典型解决方案自动构建。

对于人类需求x,在CCCS的早期训练阶段,探索的起点s*是最终状态附近的状态。

具体来说,研究人员提供人类需求x和标准解刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习的前半部分,并训练策略模型来根据x’=(x, xp)完成代码。

假定y^是xp和输出轨迹τ的组合序列,即yˆ=(xp,τ),奖励模型根据以y^为输入的代码片段τ的正确性提供奖励r。

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

研究人员使用近端策略优化(PPO)算法,通过利用奖励r和轨迹τ来优化策略模型πθ 。

在优化阶段,用于提供提示的规范解代码段xp将被屏蔽,这样它就不会对策略模型πθ更新的梯度产生影响。

CCCS通过最大化反对函数来优化策略模型πθ,其中π^ref是PPO中的参考模型,由SFT模型初始化。

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

随着训练的进行,探索的起点s*会逐渐向标准解的起点移动,具体来说,为每个训练样本设置一个阈值ρ,每当πθ生成的代码段的累计正确率大于ρ时,就将starting point向beginning移动。

在训练的后期阶段,该方法的探索过程等同于原始强化学习的探索过程,即s*=0,策略模型仅以人类需求为输入生成代码。

在条件语句的起始位置对初识点s*进行采样,以完成剩余的未写代码段。

具体来说,条件语句越多,程序的独立路径就越多,逻辑复杂度也就越高,复杂性要求更频繁地采样以提高训练质量,而条件语句较少的程序则不需要那么频繁地采样。

这种采样方法可以均衡地抽取具有代表性的代码结构,同时兼顾训练数据集中复杂和简单的语义结构。

为了加速训练阶段,研究人员将第i个样本的课程数量设置为刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习,其中Ei是其条件语句的数量。第i个样本的训练课程跨度为刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习,而不是1。

CCCS的主要观点可归纳如下:

1. 从接近目标的状态(即最终状态)开始探索很容易;

2. 从距离目标较远的状态开始探索具有挑战性,但如果能利用已经学会如何达到目标的状态,探索就会变得容易。

FGO

代码生成中奖励与行动之间的关系不同于其他强化学习任务(如Atari),在代码生成中,可以排除一组与计算生成代码中的奖励无关的动作。

具体来说,对于单元测试,编译器的反馈只与执行的代码片段,然而,在普通RL优化目标中,轨迹上的所有动作都会参与到梯度计算中,而梯度计算是不精确的。

为了提高优化精度,研究人员屏蔽了单元测试中未执行的行动(即tokens),策略模型的损失。

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

实验部分

APPS+数据集

强化学习需要大量高质量的训练数据,在调研过程中,研究人员发现在目前可用的开源数据集中,只有APPS符合这一要求。

但APPS中存在一些不正确的实例,例如缺少输入、输出或标准解,其中标准解可能无法编译或无法执行,或者执行输出存在差异。

为了完善APPS数据集,研究人员过滤掉了缺少输入、输出或标准解的实例,然后对输入和输出的格式进行了标准化,以方便单元测试的执行和比较;然后对每个实例进行了单元测试和人工分析,剔除了代码不完整或不相关、语法错误、API误用或缺少库依赖关系的实例。

对于输出中的差异,研究人员会手动审核问题描述,纠正预期输出或消除实例。

最后构建了得到APPS+数据集,包含了7456个实例,每个实例包括编程问题描述、标准解决方案、函数名称、单元测试(即输入和输出)和启动代码(即标准解决方案的开头部分)。

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

实验结果

为了评估其他LLM和StepCoder在代码生成方面的性能,研究人员在APPS+数据集上进行了实验。

结果表明,基于RL的模型优于其他语言模型,包括基础模型和SFT模型。

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

研究人员有理由推断,强化学习可以在编译器反馈的指导下,更有效地浏览模型的输出空间,从而进一步提高代码生成的质量。

此外,StepCoder超越了所有基线模型,包括其他基于RL的方法,获得了最高分。

具体来说,该方法在「入门」(Introductory)、「面试」(Interview)和「竞赛」(Competition)级别的测试题目中分别获得了59.7%、23.5%和 8.6%的高分。

与其他基于强化学习的方法相比,该方法通过将复杂的代码生成任务简化为代码完成子任务,在探索输出空间方面表现出色,并且FGO过程在精确优化策略模型方面发挥了关键作用。

还可以发现,在基于相同架构网络的APPS+数据集上,StepCoder的性能优于对微调进行有监督的LLM;与骨干网相比,后者几乎没有提高生成代码的通过率,这也直接表明,使用编译器反馈优化模型的方法比代码生成中的下一个token预测更能提高生成代码的质量。

以上就是刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/425601.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
华为手机如何定位儿童手表?设备绑定与追踪方法
上一篇 2025年11月7日 11:23:22
Linux如何修改用户的家目录路径
下一篇 2025年11月7日 11:23:39

相关推荐

  • 优化Django REST Framework嵌套序列化实现多模型用户注册

    核心挑战:多模型数据注册与嵌套序列化 在开发复杂的Web应用时,我们经常会遇到一个用户注册流程需要同时创建或更新多个关联模型实例的情况。例如,一个“骑手”注册不仅涉及创建基础的用户账户(CustomUser),还需要创建骑手专属的个人资料(Rider),其中包含车辆信息、服务能力等。传统的嵌套序列化…

    2026年5月10日
    000
  • 在HTML文件中嵌入Mermaid图表教程

    本教程详细介绍了如何在HTML文件中直接嵌入和渲染Mermaid图表。通过引入Mermaid CDN库并进行简单的初始化配置,用户可以轻松地在网页中展示流程图、时序图、甘特图等多种类型的图表,无需依赖外部工具或复杂的构建流程,实现图表内容的动态化与可视化。 引言:Mermaid图表与HTML集成 M…

    2026年5月10日
    100
  • Go语言高效素数生成:Atkin筛法实践与解析

    本文深入探讨在go语言中高效生成素数的方法。针对简单模运算判断素数的不足,我们将介绍并详细演示atkin筛法,这是一种优化后的素数筛选算法。通过go语言代码实现,读者将学习如何利用该算法在给定范围内快速准确地找出所有素数,并理解其核心逻辑与应用细节,从而提升素数生成效率。 1. 素数及其识别挑战 素…

    2026年5月10日
    000
  • HTML代码怎么实现版本控制_HTML代码版本控制方法与Git工具使用指南

    HTML代码需要版本控制以实现错误回溯、团队协作、功能迭代和代码审计,使用Git可通过初始化仓库、添加文件、提交修改、推送至远程仓库等步骤管理代码,常用命令包括git status、git diff、git log等,冲突时需手动编辑解决并重新提交。 HTML代码的版本控制,简单来说,就是追踪和管理…

    2026年5月10日
    000
  • Go语言全局日志器Lumber的配置与使用

    本文将详细介绍在go语言中,如何通过声明包级别变量的方式,实现`github.com/jcelliott/lumber`等日志库的全局访问。这种方法允许在`main`函数外部的任何函数中方便地使用日志器,避免了重复声明,并确保日志器在程序启动时正确初始化,从而提升代码的可维护性和日志管理的便捷性。 …

    2026年5月10日
    000
  • 基于用户语言环境定制 Laravel 通知

    本文介绍了如何在 Laravel 框架中,根据用户的语言环境(locale)发送定制化的通知。通过将用户语言环境信息传递给通知类,并在通知构建过程中动态设置应用语言环境,确保通知内容以用户偏好的语言呈现。同时,也介绍了使用 Laravel 内置的通知本地化功能来实现相同目标的方法。 在 Larave…

    2026年5月10日
    000
  • React组件跨域导出与样式封装指南

    本文详细阐述了如何将React组件及其样式安全地导出并嵌入到外部Web页面中,解决了传统方法中样式丢失和命名冲突的问题。通过利用Webpack进行样式内联打包以及CSS Modules实现样式隔离,确保组件在外部环境中保持其预期的视觉效果,同时避免对宿主页面的影响,提供了一套专业且高效的解决方案。 …

    2026年5月10日
    100
  • React组件间事件处理器与状态传递:从父组件到多级子组件的实践指南

    本文探讨在React中如何高效地将事件处理器或其产生的状态从父组件传递给子组件,特别是涉及多级嵌套的情况。文章将详细阐述直接传递事件处理函数和通过状态管理传递事件结果的两种核心模式,并提供清晰的代码示例与注意事项,帮助开发者构建响应式用户界面。 理解React组件通信基础:Props 在React中…

    2026年5月10日
    000
  • Go语言:高效读取文本文件并按行处理的全面指南

    本教程详细介绍了在go语言中读取文本文件并将其内容按行存储到字符串切片中的两种主要方法。我们将探讨使用`ioutil.readfile`结合`strings.split`的简洁方式,以及利用`bufio.scanner`进行高效逐行处理的策略,并提供相应的代码示例和最佳实践,帮助开发者根据文件大小和…

    2026年5月10日
    000
  • 实现水平滚动文本的淡出效果

    实现水平滚动文本的淡出效果实现水平滚动文本的淡出效果实现水平滚动文本的淡出效果实现水平滚动文本的淡出效果

    本文将介绍如何使用 CSS 实现水平滚动文本的淡出效果,尤其是在非均匀背景下,传统线性渐变方案不适用的情况下。我们将通过结合 linear-gradient 和 background-clip 属性,创建一个在水平滚动时两侧逐渐淡出的文本效果。 实现原理 核心思路是利用 CSS 的 linear-g…

    2026年5月10日 用户投稿
    200
  • FastAPI 中如何解析用逗号分隔的多个 Query 参数?

    在fastapi中,默认情况下,同名query参数会被合并成一个列表。例如,请求?source=manual&source=vdna将得到source=[‘manual’, ‘vdna’]。 如果你希望使用逗号分隔多个query参数的值,有两种…

    2026年5月10日
    000
  • 高效计算区间内可整除数值的数量

    本文探讨了如何在指定范围 `[0, max)` 内高效地计算能被给定 `divisor` 整除的数值数量。我们将对比迭代循环和数学公式两种方法,并详细解释数学公式的推导过程,展示其在性能上的显著优势,尤其适用于处理大规模数据,从而提供一个更优的解决方案。 在编程实践中,我们经常需要解决一类问题:统计…

    2026年5月10日
    300
  • 探索教师库:结构化非结构化数据(以及沿途的一些乐趣)

    我最近访问了讲师库,不得不说,给我留下了深刻的印象。结构化非结构化数据的概念非常强大,而且我敢说,有点神奇。你可以获取无处不在的数据并以某种方式对其施加秩序——嗯,这就是我的魔法。 但是……它到底是如何工作的? 为了找到答案,我花了一些时间深入研究这个库的内部结构,我发现幕后有两个关键人物对它的大部…

    2026年5月10日
    000
  • 正则表达式:精确匹配所需字符串,排除其他干扰

    本文旨在帮助读者理解如何编写更精确的正则表达式,以从一组字符串中提取特定模式,同时避免不必要的匹配。通过分析一个实际案例,我们将学习如何使用否定预查、非捕获组和字符类等技巧,来优化正则表达式,使其更符合需求。 正则表达式是一种强大的文本处理工具,但编写一个既能匹配目标字符串,又能排除其他类似字符串的…

    用户投稿 2026年5月10日
    000
  • 掌握CSS层叠上下文:将下拉菜单叠加在地图之上

    本文将深入探讨如何利用css的position和z-index属性,解决将下拉菜单等交互元素精确叠加在全屏背景元素(如地图)上方的问题。通过调整元素的定位方式和层叠顺序,确保下拉菜单在视觉上处于地图之上,实现更灵活和用户友好的界面布局。 在现代网页设计中,将交互式UI元素(如下拉菜单、模态框)叠加在…

    2026年5月10日
    200
  • JavaScript定时器实现多图片同步切换教程

    本教程详细讲解如何利用JavaScript的setInterval函数,实现网页中多张图片(如背景图、号召性用语图和顶部图)的同步循环切换。通过维护一个共享的索引,确保所有图片在预设的时间间隔内,按照各自的图片序列同时更新,从而创建流畅且一致的视觉动态效果。 引言 在网页设计中,动态视觉效果能够极大…

    2026年5月10日
    000
  • 使用 Pandas 的 isin 方法进行日期匹配时出现问题的解决方案

    本文旨在解决在使用 Pandas 的 `isin` 方法,结合 `datetime` 对象进行数据筛选时,可能遇到的 `TypeError` 和 `AttributeError` 问题。通过分析问题代码,我们将提供清晰的解决方案,并解释其背后的原因,帮助读者避免类似错误,高效地进行数据处理。 在使用…

    2026年5月10日
    000
  • 控制 PHPUnit 测试执行:仅运行特定命名模式的测试类

    本文旨在解决 PHPUnit 在复杂项目或非标准代码结构中可能遇到的测试执行范围问题,特别是当您希望仅运行类名以 “Test” 结尾的测试时。文章将详细介绍两种主要解决方案:通过重命名非测试方法或修改其可见性来避免其被执行,以及如何实现自定义 TestSuiteLoader …

    2026年5月10日
    000
  • React应用登录后重定向失败的常见原因与解决方案

    本文旨在探讨React应用中用户登录后无法正确重定向至主页的常见问题。核心原因在于状态管理与组件生命周期中的时序问题,即loggedIn状态未在导航前及时更新。通过在成功登录后立即更新loggedIn状态,并结合useEffect的正确使用,可以有效解决此问题,确保用户体验的流畅性。 在构建现代We…

    2026年5月10日
    000
  • 如何用Python进行机器学习?

    在python中进行机器学习可以分为以下几个步骤:1. 数据处理和分析,使用numpy和pandas处理数据集。2. 选择机器学习模型,使用scikit-learn进行模型训练和评估。3. 深度学习,使用tensorflow或pytorch构建和训练神经网络。4. 模型调参,使用交叉验证和网格搜索优…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信