Thinking Machine 新研究刷屏！结合 RL+ 微调优势，小模型训练更具性价比了

程序猿 • 2025年11月4日 14:44:37 • 硬件教程 • 阅读 1

thinking %ignore_a_2% 最新研究正在被热议！

创始人、OpenAI 前 CTO Mira Murati 亲自转发后，一众围观大佬开始惊叹其研究价值（截不完、根本截不完）：

根据 Mira Murati 的提炼，原来他们提出了一种让小模型更懂专业领域的 LLM（大语言模型）后训练方法——On-Policy Distillation （在线策略蒸馏）。

这个方法的精髓，可以打个比方。想象一下，以前训练 AI 有两种主流方式：

实战演戏（如强化学习等在线策略方法）：让它自己摸索、从错误中成长，学得灵活，但非常耗时耗力。

请家教（如监督微调等离线策略方法）：直接把正确答案喂给它，效率高，但学得死板。

而 On-Policy Distillation 相当于请了一位天才教练。这位教练一边让 AI 自己动手解题（实战），一边在它卡壳或犯错时，立刻给出关键提示和正确答案（家教）。

这样做最大的好处就是 ” 性价比 ” 超高。实验结果证明，用这种方法来教小模型数学——达到同样水平，所需的训练步骤少了 7-10 倍；整体算下来，效率提升了 50-100 倍。

这意味着，一些资源受限的个人或小公司，也能高效地训练出在特定领域很能打的 ” 小模型 ” 了。

包括翁荔在内，难怪大家看完都直呼：优雅、实在是优雅！

而且啊，当我们扒完相关博客后才发现，On-Policy Distillation 的价值还不止于此——

在线策略蒸馏：结合两种范式的最佳实践

论文指出，要让模型具备强大的专业领域能力，通常会经历以下三个过程：

预训练 ( Pre-training ) : 教会模型通用能力，比如语言使用、广义推理、世界知识。

中训练 ( Mid-training ) : 传授领域知识，比如代码、医学数据库、公司内部文档。

后训练 ( Post-training ) : 这是最后也是至关重要的一步，需要引导模型产生目标行为，比如按指令操作、解决数学题、聊天等。

而他们这次就把目光放在了后训练上。

截至目前，后训练阶段诞生了两大主流范式，即开头提到的在线策略 ( On-policy ) 和离线策略 ( Off-policy ) 训练。

考虑到两种方式各有其优缺点，所有这次他们选择 ” 取其精华去其糟粕 “，来一个巧妙的融合——

将在线策略的自主探索与离线策略的密集监督结合起来，以创造一个 ” 两全其美 ” 的训练框架。

具体来说，他们核心想让学生模型在自己生成的轨迹上学习，但每一步（注意是每一步）都由一个更强大的教师模型进行细致的评分和指导。（就像解题一样，学生给出每一步解题过程，教师给每一步打分）

相关流程大致如下：

初始化教师模型：找一个实力强大的模型当老师（通用模型或经过专门训练的专家模型均可），它只负责计算概率，而不需要进行反向传播更新梯度。

学生采样轨迹：让学生模型自主解题，过程中需记录下它在每一步选择每个 token 的对数概率。

教师逐步评分：将学生模型生成的轨迹，原封不动地交给教师模型。教师模型会对这个轨迹的每一个 token 进行评估，计算出在相同的上下文下，它自己生成这个 token 的对数概率。然后，通过学生和教师的对数概率之差，可以计算出两者在每一步的分歧 ( Divergence ) 。

使用分歧作为奖励进行训练：最后使用上述分歧作为奖励信号，来更新学生模型。

这里重点介绍一下 “KL 散度（Negative reverse KL divergence） ” 这一评估分歧的指标。

简单来说，当学生模型与教师模型的行为一致时，KL 散度为零；当学生模型的选择与教师模型的期望相差甚远时，KL 散度会变得很大，从而产生一个强烈的负面奖励（惩罚）。

学生模型的目标就是通过训练，最小化这个 KL 散度——换言之，越像老师奖励越高，越不像惩罚越狠。

这种逆向 KL 散度具备两个非常优秀的特性：

一是能防作弊。传统强化学习中，模型可能学会钻空子，用一些看似正确实则取巧的方式获得高分。而现在，评判标准直接锚定教师模型的 ” 真知灼见 “，学生只有真正学到精髓才能获得高分，堵死了作弊空间。

二是让学习过程更加稳定和聚焦。它能让学生模型精准锁定教师模型展现的 ” 最优解法 “，避免在多个普通答案间摇摆不定，从而确保学习过程更稳定、结果更出色。

基于上述方法和特性，他们进行了两个实验来验证其效果。

实验一：将 32B 大模型的数学能力快速教给 8B 小模型

教师模型：Qwen3-32B

可图大模型

可图大模型（Kolors）是快手大模型团队自研打造的文生图AI大模型

32 查看详情

学生模型：Qwen3-8B-Base

所有实验从一个共同起点开始：学生模型通过传统训练（监督微调），在数学基准 AIME ’ 24 上已达到 60 分。研究目标是将性能从 60 分提升至 70 分。

为达成目标，研究人员对比了三种方法的计算成本：

继续传统训练：大约需要额外训练 200 万个样本，计算开销非常巨大；

强化学习：根据 Qwen3 团队的技术报告，在一个相似的 SFT 初始化模型之上，通过强化学习将性能提升到 67.6%，花费了 17920 个 GPU 小时。这个成本与训练 200 万个 SFT 样本的成本大致相当；

在线策略蒸馏：仅用了大约 150 个训练步骤就达到了 70% 的目标分数，与外推到 200 万样本的 SFT 相比，在线策略蒸馏的计算成本砍掉了 9~30 倍。

而且如果从 GPU 小时的角度看，由于教师模型计算对数概率 ( log-probs ) 的过程可以高效并行化，实际节省的时间成本可能更接近 18 倍。

这个实验有力证明了在线策略蒸馏在计算效率上的巨大优势。它用远低于传统 SFT 或 RL 的成本，实现了同等甚至更好的性能提升。

实验二：打造兼具知识性与通用性的企业 AI 助理

目前存在的问题是：给 AI 学习新知识（公司内部文档）时，它会忘记旧技能（对话交流）。

假如使用传统微调方法向模型注入内部知识，往往会出现严重的 ” 灾难性遗忘 ” ——内部知识得分显著提升（从 18% 升至 43%），但通用能力大幅下降（从 85% 暴跌至 45%）。

而且无论怎样调整数据配比，都无法同时保住两项能力。

于是他们想到了，当模型因学习新知识而 ” 遗忘 ” 部分通用能力后，可以使用在线策略蒸馏进行修复——让 ” 失忆 ” 的模型向它自己最初的、能力完整的版本学习。

结果意外发现，模型的通用能力几乎完全恢复（从 79% 回升至 83%），同时新知识未被破坏（反而从 36% 提升至 41%）。

这说明，在线策略蒸馏是解决 AI” 灾难性遗忘 ” 的有效工具。它能够在不损害新学技能的前提下，精准地恢复模型遗忘的核心能力，为实现 AI 的 ” 终身学习 ” 提供了关键技术支持。

论文核心作者 Kevin Lu

最后看一下这项研究的核心作者——Kevin Lu（论文唯一单独提到的）。

今年 8 月，Kevin Lu 离开 OpenAI 转身投入 Thinking Machine 的怀抱。

在 OpenAI 工作期间，他领导了 4o-mini 发布，并参与 o1-mini、o3 发布，主要研究强化学习、小模型和合成数据。

很明显，这一次的研究也和其之前的工作息息相关。

论文：

https://thinkingmachines.ai/blog/on-policy-distillation/

参考链接：

[ 1 ] https://x.com/miramurati/status/1982856564970254772

[ 2 ] https://x.com/_kevinlu/status/1982857375263666590

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中！我们正在寻找 AI+ 时代领航者点击了解详情

企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

以上就是Thinking Machine 新研究刷屏！结合 RL+ 微调优势，小模型训练更具性价比了的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/276437.html

2 ai mac machine openai thinking 人工智能大模型小模型工具微调数学结合训练

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

大疆无人机怎么用专业模式_大疆无人机专业模式参数调节与创作自由度

上一篇 2025年11月4日 14:44:00

大疆无人机怎么用语音控制_大疆无人机语音控制功能与指令设置方法

下一篇 2025年11月4日 14:49:09

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
0000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
0000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
0000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
2000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
0000
好文分享

如何用 CSS Paint API 实现倾斜的斑马线间隔圆环？

实现斑马线边框样式：探究 css paint api 本文将探究如何使用 css paint api 实现倾斜的斑马线间隔圆环。问题：给定一个有多个圆圈组成的斑马线图案，如何使用 css 实现倾斜的斑马线间隔圆环？答案：立即学习“前端免费学习笔记（深入）”；使用 css paint api…

程序猿
2025年12月24日
0000
好文分享

如何使用CSS Paint API实现倾斜斑马线间隔圆环边框？

css实现斑马线边框样式想定制一个带有倾斜斑马线间隔圆环的边框？现在使用css paint api，定制任何样式都轻而易举。 css paint api 这是一个新的css特性，允许开发人员创建自定义形状和图案，其中包括斑马线样式。立即学习“前端免费学习笔记（深入）”；实现倾斜斑马线间隔圆环 …

程序猿
2025年12月24日
1000

发表回复

登录后才能评论

Thinking Machine 新研究刷屏！结合 RL+ 微调优势，小模型训练更具性价比了

关于作者

相关推荐

发表回复