刷榜「代码生成」任务！复旦等发布StepCoder框架：从编译器反馈信号中强化学习

程序猿 • 2025年11月7日 11:23:22 • 科技 • 阅读 0

大型语言模型（LLMs）的进步在很大程度上推动了代码生成领域的发展。此前的研究中，强化学习（RL）与编译器的反馈信号被结合在一起，用于探索LLMs的输出空间，以优化代码生成的质量。

但当下还存在两个问题：

1. 强化学习探索很难直接适配到「复杂的人类需求」，即要求LLMs生成「长序列代码」；

2. 由于单元测试可能无法覆盖复杂的代码，因此使用未执行的代码片段来优化LLMs是无效的。

为了应对这些挑战，研究人员提出了一种名为StepCoder的新型强化学习框架，该框架由复旦大学、华中科技大学和皇家理工学院的专家共同开发。StepCoder包含两个关键组件，旨在改善代码生成的效率和质量。

1. CCCS通过将长序列代码生成任务分解为代码完成子任务课程来解决探索挑战；

2. FGO通过屏蔽未执行的代码段来优化模型，以提供细粒度优化。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/pdf/2402.01391.pdf

项目链接：https://github.com/Ablustrund/APPS_Plus

代码小浣熊

代码小浣熊是基于商汤大语言模型的软件智能研发助手，覆盖软件需求分析、架构设计、代码编写、软件测试等环节

51 查看详情

研究人员还构建了用于强化学习训练的APPS+数据集，手动验证以确保单元测试的正确性。

实验结果表明，该方法提高了探索输出空间的能力，并在相应的基准测试中优于最先进的方法。

StepCoder

在代码生成过程中，普通的强化学习探索（exploration）很难处理「奖励稀疏且延迟的环境」和涉及「长序列的复杂需求」。

在CCCS（Curriculum of Code Completion Subtasks）阶段，研究人员将复杂的探索问题分解为一系列子任务。利用标准解（canonical solution）的一部分作为提示（prompt），LLM可以从简单序列开始探索。

奖励的计算只与可执行的代码片段相关，因此用整个代码（图中红色部分）来优化LLM是不精确的（图中灰色部分）。

在FGO（Fine-Grained Optimization）阶段，研究人员对单元测试中未执行的tokens（红色部分）进行遮罩，只使用已执行的tokens（绿色部分）计算损失函数，从而可以提供细粒度的优化。

预备知识

假定是用于代码生成的训练数据集，其中x、y、u分别表示人类需求（即任务描述）、标准解和单元测试样本。

是通过自动分析标准解yi的抽象语法树得出的条件语句列表，其中st和en分别表示语句的起始位置和结束位置。

对于人类需求x，其标准解y可表示为；在代码生成阶段，给定人类需求x，最终状态是通过单元测试u的代码集合。

方法细节

StepCoder集成了两个关键组件：CCCS和FGO，其中CCCS的目的是将代码生成任务分解为代码完成子任务的课程，可以减轻RL中的探索挑战；FGO专为代码生成任务而设计，通过只计算已执行代码片段的损失来提供细粒度优化。

CCCS

在代码生成过程中，要解决复杂的人类需求，通常需要策略模型采取较长的动作序列。同时，编译器的反馈是延迟和稀疏的，也就是说，策略模型只有在生成整个代码后才会收到奖励。在这种情况下，探索非常困难。

该方法的核心是将这样一长串探索问题分解为一系列简短、易于探索的子任务，研究人员将代码生成简化为代码补全子任务，其中子任务由训练数据集中的典型解决方案自动构建。

对于人类需求x，在CCCS的早期训练阶段，探索的起点s*是最终状态附近的状态。

具体来说，研究人员提供人类需求x和标准解的前半部分，并训练策略模型来根据x’=(x, xp)完成代码。

假定y^是xp和输出轨迹τ的组合序列，即yˆ=(xp,τ)，奖励模型根据以y^为输入的代码片段τ的正确性提供奖励r。

研究人员使用近端策略优化（PPO）算法，通过利用奖励r和轨迹τ来优化策略模型πθ 。

在优化阶段，用于提供提示的规范解代码段xp将被屏蔽，这样它就不会对策略模型πθ更新的梯度产生影响。

CCCS通过最大化反对函数来优化策略模型πθ，其中π^ref是PPO中的参考模型，由SFT模型初始化。

随着训练的进行，探索的起点s*会逐渐向标准解的起点移动，具体来说，为每个训练样本设置一个阈值ρ，每当πθ生成的代码段的累计正确率大于ρ时，就将starting point向beginning移动。

在训练的后期阶段，该方法的探索过程等同于原始强化学习的探索过程，即s*=0，策略模型仅以人类需求为输入生成代码。

在条件语句的起始位置对初识点s*进行采样，以完成剩余的未写代码段。

具体来说，条件语句越多，程序的独立路径就越多，逻辑复杂度也就越高，复杂性要求更频繁地采样以提高训练质量，而条件语句较少的程序则不需要那么频繁地采样。

这种采样方法可以均衡地抽取具有代表性的代码结构，同时兼顾训练数据集中复杂和简单的语义结构。

为了加速训练阶段，研究人员将第i个样本的课程数量设置为，其中Ei是其条件语句的数量。第i个样本的训练课程跨度为，而不是1。

CCCS的主要观点可归纳如下：

1. 从接近目标的状态（即最终状态）开始探索很容易；

2. 从距离目标较远的状态开始探索具有挑战性，但如果能利用已经学会如何达到目标的状态，探索就会变得容易。

FGO

代码生成中奖励与行动之间的关系不同于其他强化学习任务（如Atari），在代码生成中，可以排除一组与计算生成代码中的奖励无关的动作。

具体来说，对于单元测试，编译器的反馈只与执行的代码片段，然而，在普通RL优化目标中，轨迹上的所有动作都会参与到梯度计算中，而梯度计算是不精确的。

为了提高优化精度，研究人员屏蔽了单元测试中未执行的行动（即tokens），策略模型的损失。

实验部分

APPS+数据集

强化学习需要大量高质量的训练数据，在调研过程中，研究人员发现在目前可用的开源数据集中，只有APPS符合这一要求。

但APPS中存在一些不正确的实例，例如缺少输入、输出或标准解，其中标准解可能无法编译或无法执行，或者执行输出存在差异。

为了完善APPS数据集，研究人员过滤掉了缺少输入、输出或标准解的实例，然后对输入和输出的格式进行了标准化，以方便单元测试的执行和比较；然后对每个实例进行了单元测试和人工分析，剔除了代码不完整或不相关、语法错误、API误用或缺少库依赖关系的实例。

对于输出中的差异，研究人员会手动审核问题描述，纠正预期输出或消除实例。

最后构建了得到APPS+数据集，包含了7456个实例，每个实例包括编程问题描述、标准解决方案、函数名称、单元测试（即输入和输出）和启动代码（即标准解决方案的开头部分）。

实验结果

为了评估其他LLM和StepCoder在代码生成方面的性能，研究人员在APPS+数据集上进行了实验。

结果表明，基于RL的模型优于其他语言模型，包括基础模型和SFT模型。

研究人员有理由推断，强化学习可以在编译器反馈的指导下，更有效地浏览模型的输出空间，从而进一步提高代码生成的质量。

此外，StepCoder超越了所有基线模型，包括其他基于RL的方法，获得了最高分。

具体来说，该方法在「入门」（Introductory）、「面试」（Interview）和「竞赛」（Competition）级别的测试题目中分别获得了59.7%、23.5%和 8.6%的高分。

与其他基于强化学习的方法相比，该方法通过将复杂的代码生成任务简化为代码完成子任务，在探索输出空间方面表现出色，并且FGO过程在精确优化策略模型方面发挥了关键作用。

还可以发现，在基于相同架构网络的APPS+数据集上，StepCoder的性能优于对微调进行有监督的LLM；与骨干网相比，后者几乎没有提高生成代码的通过率，这也直接表明，使用编译器反馈优化模型的方法比代码生成中的下一个token预测更能提高生成代码的质量。

以上就是刷榜「代码生成」任务！复旦等发布StepCoder框架：从编译器反馈信号中强化学习的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/425601.html

ai 数据

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

进一步加速落地：压缩自动驾驶端到端运动规划模型

上一篇 2025年11月7日 11:23:01

鸿蒙+星闪：一场“1+1＞2”的音频蝶变

下一篇 2025年11月7日 11:24:23

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
0000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
0000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
0000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
2000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
0000
好文分享

如何用 CSS Paint API 实现倾斜的斑马线间隔圆环？

实现斑马线边框样式：探究 css paint api 本文将探究如何使用 css paint api 实现倾斜的斑马线间隔圆环。问题：给定一个有多个圆圈组成的斑马线图案，如何使用 css 实现倾斜的斑马线间隔圆环？答案：立即学习“前端免费学习笔记（深入）”；使用 css paint api…

程序猿
2025年12月24日
0000
好文分享

如何使用CSS Paint API实现倾斜斑马线间隔圆环边框？

css实现斑马线边框样式想定制一个带有倾斜斑马线间隔圆环的边框？现在使用css paint api，定制任何样式都轻而易举。 css paint api 这是一个新的css特性，允许开发人员创建自定义形状和图案，其中包括斑马线样式。立即学习“前端免费学习笔记（深入）”；实现倾斜斑马线间隔圆环 …

程序猿
2025年12月24日
1000