首次解释 LLM 如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

程序猿 • 2025年11月17日 05:10:32 • 硬件教程 • 阅读 0

推理模型常表现出类似自我反思的行为，但它们是否真的能有效探索新策略？

对此，西北大学与 Google、谷歌 DeepMind 团队对传统强化学习与反思的关系提出质疑，并提出了贝叶斯自适应的强化学习方法，首次解释了为何、如何以及何时应进行反思和探索。

通过对比采用传统强化学习和新方法训练的模型，研究人员发现：

在完成“模型需在3步内输出三个连续相同字符”的合成任务中，传统RL往往一条道走到黑，而新方法懂得排除无效假设并适时切换策略。

此外，在数学推理任务中，新方法在大多数基准和模型上均获得了更高的准确率，且解题所耗token数更少。

更有趣的是，团队发现反思次数并非决定性能的唯一因素，部分基础模型虽有大量徒劳的反思，但并未带来实质性信息增益。

以下详细展开。

贝叶斯自适应强化学习激发反思性探索

直观来看，测试时的试错步骤仅在能带来信息增益时才有益，然而现有强化学习并未告知模型试错和反思带来的信息增益。

实际上，基于马尔可夫假设的传统强化学习范式存在局限——探索仅发生于训练阶段，代理在部署时通常只利用训练中学到的确定性策略。

马尔可夫假设使RL代理仅依据当前状态做决策，历史信息（如试错并回溯的思考过程）对策略的影响都被压缩至当前状态表示中。

研究者指出，这种传统范式可能导致模型通过记忆训练解答获得高分，而无需真正学会反思；模型内部思考的试错也无法提供信息增益。

那么，测试时的反思性探索真的有用吗？如何才能学到有效的反思性探索策略呢？

为了解决上述问题，研究者研究了与传统RL不同的贝叶斯自适应RL框架，简称BARL。

其核心思想是将LLM的反思性探索转化为贝叶斯自适应强化学习问题处理，通过引入对环境不确定性的建模，让模型在推理过程中自适应地进行探索。

简而言之，BARL不再局限于传统RL的马尔可夫假设，而是考虑了MDP的不确定性（如不同策略对一道题的有效性），因此需要将所有历史观察（包括奖励反馈）纳入决策中。

这种框架天然平衡了奖励最大化的利用和信息获取的探索。

具体而言，在BARL中，团队假设模型面对的是一个存在未知要素的任务，可以用一组假设的MDP（马尔可夫决策过程）来描述这些不确定性。

模型对每个假设MDP保持一个后验概率（belief），随着推理过程不断更新。

每当模型选择一个动作（如生成下一个思维步骤），都会根据观察到的结果更新对各个假设的信念。

BARL的目标策略并非针对单一确定环境优化，而是直接优化在后验分布下的期望累积回报。这意味着模型在决策时会考虑“这样做收益是多少，同时这样的行动能多大程度减少不确定性？”。

BARL明确将测试时的表现纳入优化目标，通过最大化后验下的期望回报鼓励模型考虑未知情况。

模型明白只有主动探索才能在未知情境下保持高收益，因此反思是为了获取关键信息，避免一条路走错到底。

简而言之，BARL让模型意识到——

适时反思、多一种尝试可能带来更高的回报，这正是反思行为得以涌现的动机。

全新推理模型强化学习算法

研究者针对推理模型给出了BARL决策的数学形式，其中核心是如何计算后验的期望值：

该公式针对多个候选答案（如best-of-N中的N个答案）计算了预期回报加权求和，权重一方面是模型认为该候选答案的好坏，另一方面还包含了一个“校正项”——用来衡量实际观察结果与模型预期的偏差。

正是这个校正项充当了反思信号：如果某个策略原本被模型高度看好，但奖励反馈结果不尽如人意，那这个差异会迅速降低该假设的权重，提醒模型“也许该换一种思路了”，这正回答了模型应该何时进行反思和探索。

通过这种机制，BARL的决策公式指导模型在每个步骤判断是否需要反思、何时切换策略。

这也是BARL反思性决策的精髓——让模型基于贝叶斯后验来权衡“继续当前思路”还是“尝试新思路”。

这种更新过程鼓励模型拼接和切换不同的推理策略，就像把多条可能的解题思路串联起来，并在中途发现某条思路行不通时迅速切换到另一条。

BARL通过端到端的RL优化自动实现了这一点，可谓以原则化的方式赋予了LLM在推理过程中的“何时反思、如何反思”的指南，达到了以一条长CoT线性化best-of-N的效果。

合成任务案例：更清楚的对比RL和BARL

为了直观展示BARL如何在测试时展现反思探索能力，作者设计了一个合成任务：模型需要在3步内输出三个连续相同的字符（0/1/2），才能获得奖励。

训练阶段，提示（prompt）字符只会是0或1，模型学会了对应输出000或111来拿到奖励；但测试时，提示字符变为了2。

直觉上，训练时学到的确定性策略在遇到新字符时将不再有效，需要模型即时探索正确的输出模式。

让两个模型来挑战这个任务：一个用传统马尔可夫RL训练，另一个用BARL方法训练。

Markovian RL很快便最大化了训练准确率，几乎将这些答案背了下来。

BARL在训练中同样学会了正确输出模式，但更有趣的是，它同时学会了根据不确定性来调整策略——这一点要等到测试才能看出差别。

测试阶段揭示了截然不同的行为。即当提示变为新字符2时，Markovian RL由于在训练中只记住了固定的输出（000/111）无法泛化，因此几乎总是答错，测试准确率接近于零。

而BARL代理则展现出“反思”能力。它会先尝试某个策略，如果初步尝试未获得奖励，就迅速反思切换，尝试另一种可能的序列。

下图形象说明了Markov RL和BARL在该合成任务中的决策差异——

Markov策略一条路走到黑，BARL策略则懂得排除无效假设，适时切换新策略。

可以看到，左图中马尔可夫RL模型训练时成绩很快逼近100%，但测试时几乎完全失败，中图的BARL模型则不仅训练表现提升，在测试时也取得了显著的高准确率。

值得注意的是，右图显示如果事先给予BARL一些关于任务结构的先验知识（如“奖励模式就是某个字符重复三次”），它的收敛速度和最终成绩还会更好。

这说明了候选策略既要有多样性以覆盖未知情况，又要有合理的可信度以不至于无谓浪费精力。

数学推理任务：性能全面提升，显著节省Token

研究人员还将BARL应用于LLM的数学推理领域，并比对了GRPO和“Progress”奖励基线（给予正确答案概率的分步奖励）。

BARL在大部分基准和模型上均取得了更高的准确率。

不仅如此，BARL还展现出更高的效率优势。

作者特别度量了每种方法为解出题目所耗费的token数量，结果发现在达到同等甚至更高准确率的情况下，BARL生成的内容要短得多。

这意味着，BARL模型并不会为了“多反思几次”而付出冗长啰嗦的代价，反而因为每次反思都更有针对性、更有效。

作者还观察到另一个有趣的现象：反思次数本身并非决定性能的唯一因素。

基础模型往往出现很多徒劳的反思，并没有带来实质的信息增益。相比之下，BARL的反思行为更加“有目的性”。

![](/uploads/2025060

以上就是首次解释 LLM 如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/85389.html

2025 反思叶斯如何学习强化推理谷歌适应

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

北大校友造通用 AI Agent，可执行 1000 个操作，无邀请码立即上手试用

上一篇 2025年11月17日 05:02:24

余承东车展金句：鼓励真牛打击吹牛鸿蒙智驾就是第一

下一篇 2025年11月17日 05:33:56

好文分享

谷歌搜索的鼠标悬停阴影效果是如何实现的？

谷歌搜索悬停阴影效果解析在谷歌搜索页面中，当鼠标悬停在搜索框或按钮上时，会出现一个微妙的边缘阴影。想要了解这一效果的实现原理，许多开发者可能率先想到使用 css。 css 探索遗憾的是，在 css 代码中无法找到与阴影效果直接相关的属性或值。继续探索其他实现方法。浏览器开发者工具助力使用浏览…

程序猿
2025年12月24日
0000
好文分享

如何用 CSS 实现谷歌搜索框鼠标悬停时的边缘阴影效果？

谷歌搜索框鼠标悬停时边缘阴影效果实现对于谷歌搜索框在鼠标悬停时的边缘阴影效果，你可能找不到直接的 css 代码，但这种效果可以通过 box-shadow 属性实现。 box-shadow 可以创建箱子周围的阴影效果，它的语法如下： box-shadow: h-offset v-offset blu…

程序猿
2025年12月24日
2000
好文分享

如何实现谷歌搜索框鼠标悬停时的边缘阴影效果？

如何实现谷歌搜索框鼠标悬停时的边缘阴影效果？在谷歌搜索中，当鼠标悬停在搜索框和按钮上时，会产生一种精致的边缘阴影效果。实现这一效果需要使用 css 的 box-shadow 属性。 box-shadow 属性 box-shadow 属性允许在元素周围创建阴影效果。其语法为： box-shadow:…

程序猿
2025年12月24日
2000
好文分享

鼠标悬停时，谷歌搜索元素的阴影效果是如何实现的？

鼠标悬停时突出显示谷歌搜索元素的阴影效果是如何实现的该效果是通过 css 的 box-shadow 属性实现的，该属性用于在元素周围创建阴影效果。当鼠标悬停在元素上时，应用 :hover 伪类，并添加 box-shadow 属性，为元素指定阴影效果。下面是一个示例 css 代码，它给谷歌搜索框…

程序猿
2025年12月24日
1000
好文分享

当父元素仅设置行高时，块级和行内块级元素的行为有何区别？

当父元素仅设置行高时，块级或行内块级子元素的行为在 html 中，当父元素仅设置行高 line-height 时，块级或行内块级元素的行为会有所不同。 <line-height: 60px; background-color: antiquewhite; 哈哈哈行内块级元素（display…

程序猿
2025年12月24日
2000
CSS 砌体 Catness

css 就像技术中的其他东西一样 – 它总是在变化和发展。该领域正在进行的开发是 css 网格布局模块级别 3，也称为 css masonry 布局。 theo 制作了一段视频，介绍了它的开发方式以及苹果和谷歌就如何实施它进行的辩论。所有这些让我很高兴尝试 css 砌体！ webkit…

程序猿
好文分享 2025年12月24日
0000
好文分享

谷歌浏览器重命名文件后缩进消失，火狐浏览器却不会，这是为什么？

谷歌浏览器重命名文件后缩进消失，而火狐浏览器不会在谷歌浏览器中使用 WEB IDE 时遇到一个奇怪的问题。当重命名目录树中的文件后，目录树左侧的缩进消失了。但是，在开发者工具中发现导致缩进消失的其实是设置了 margin-right: -17px，而不是正常的 margin-left: -17px…

程序猿
2025年12月24日
0000
好文分享

为什么重命名文件后，谷歌浏览器和火狐浏览器的目录树缩进表现不同？

为什么在重命名文件后，谷歌浏览器和火狐浏览器的目录树表现不同？一位开发者遇到了一个令人迷惑的问题：在谷歌浏览器中的 WEB IDE 中重命名文件时，目录树中的缩进会消失。经过检查，开发者发现目录树元素有一个 margin-right:-17px 样式，这与预期中 margin-left:-17px…

程序猿
2025年12月24日
3000
好文分享

谷歌浏览器和火狐浏览器在重命名文件时，为何表现出不同的缩进差异？

浏览器在重命名文件时表现差异的原因当你使用谷歌浏览器中的 WEB IDE 重命名文件时，你遇到的问题是：整个目录树向左移动，缩进消失。同时，你发现该元素设置了 margin-right: -17px，但它应该设置为 margin-left: -17px。这个问题的原因是因为谷歌浏览器在处理 CS…

程序猿
2025年12月24日
2000
好文分享

谷歌浏览器目录树缩进消失：是 Bug 还是配置问题？

浏览器中的目录树缩进差异问题：在谷歌浏览器使用 WEB IDE 时，重命名文件会消除目录树的缩进，但火狐浏览器没有这个问题。这是谷歌的 Bug 吗？答案：不是谷歌的 Bug。解释：在 Google 浏览器中，浏览器错误地将 margin-right:-17px 应用于目录树元素，而不是 …

程序猿
2025年12月24日
0000
好文分享

如何使用 CSS 渐变实现仅显示左右两端的多彩边框？

使用 css 渐变实现多彩边框在需要给元素添加边框时，我们可以通过 css 的 border-image 属性实现渐变边框效果。例如，以下代码可以设置一个左右两端显示渐变色的边框： border-image: linear-gradient(rgba(255, 255, 255, 0.00) 0%…

程序猿
2025年12月24日
0000
好文分享

CSS 样式隔离难题：不同项目如何兼容不同版本组件库？

CSS 样式隔离难题：不同项目如何兼容不同版本组件库？在软件开发中，不同的项目经常会使用不同的组件库或框架版本。当这些项目需要集成在一起时，不同样式之间的冲突就成了一个难题。在这个案例中，项目 A 和 B 都使用 ant-design-vue 组件库，但版本不一致。由于部分 A 项目中的组件 CS…

程序猿
2025年12月24日
0000
好文分享

在 Sass 中使用 Mixin

如果您正在深入研究前端开发世界，那么您很可能遇到过sass（语法很棒的样式表）。 sass 是一个强大的 css 预处理器，它通过提供变量、嵌套、函数和 mixins 等功能来增强您的 css 工作流程。在这些功能中，mixins 作为游戏规则改变者脱颖而出，允许您有效地重用代码并保持样式表的一致性…

程序猿
2025年12月24日
2000
好文分享

零基础学习如何快速掌握CSS框架：快速入门指南

CSS框架快速入门指南：从零开始学习如何快速做好CSS框架，需要具体代码示例引言：在当今的Web开发中，CSS框架被广泛应用于构建漂亮、响应式的网页设计。CSS框架可以帮助开发者快速搭建美观、一致的网页布局，减少开发时间。本文将介绍如何从零开始学习并掌握使用CSS框架，以及提供具体的代码示例。一…

程序猿
2025年12月24日
0000
好文分享

从零开始学习CSS3：逐步掌握核心技术

从零开始学习CSS3：逐步掌握核心技术 CSS（层叠样式表）是网页设计中不可或缺的一部分，它决定了网页的外观和布局。随着互联网的发展，CSS也不断更新，其中最新版本为CSS3。CSS3引入了许多新的特性和功能，提供更多的设计选择和更丰富的用户体验。本文将介绍如何从零开始学习CSS3，掌握其核心技术。…

程序猿
2025年12月24日
0000
好文分享

CSS3的学习轨迹和常见误区解析

CSS3的学习轨迹和常见误区解析引言：随着Web技术的不断发展，CSS3已经成为了前端工程师必备的技能之一。通过掌握CSS3的各种功能和特效，我们能够创建出更加丰富多彩的网页布局和交互效果。本文将介绍CSS3的学习轨迹，同时分析一些常见的误区，并提供一些代码示例。一、学习轨迹： 1.掌握基本语法…

程序猿
2025年12月24日
0000
CSS怪异盒模型和标准盒模型如何使用

这次给大家带来CSS怪异盒模型和标准盒模型如何使用，使用CSS怪异盒模型和标准盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。在html文档中，每个渲染在页面中的标签都是一个个盒子模型。盒子模型又分为： W3C标准的盒子模型和 IE标准的盒子模型。由于目前大部分主流的浏览器支持的是…

程序猿
2025年12月24日 • 好文分享
0000
好文分享

html5怎么设置月份_HTML5用input type=”month”让用户选择年月月份【设置】

HTML5的input type=”month”提供原生年月选择器，格式为“YYYY-MM”，支持value默认值、min/max范围限制、name表单提交，并需JavaScript降级兼容旧浏览器。如果您希望在网页中提供一个简洁的年月选择控件，HTML5 的 input …

程序猿
2025年12月23日
2000
好文分享

谷歌如何使用html5_谷歌浏览器HTML5使用与支持设置技巧【详解】

Chrome中HTML5问题需通过五步解决：一、更新至v132+确保基础支持；二、在chrome://flags启用WebGPU等实验功能；三、用chrome://gpu、chrome://media-internals及Console命令验证硬件加速与API就绪；四、在网站设置中授权相机、位置等权…

程序猿
2025年12月23日
0000
好文分享

谷歌浏览器怎么运行html_谷歌浏览器运行html方法【教程】

可通过拖拽HTML文件至谷歌浏览器窗口直接预览；2. 也可通过浏览器菜单选择“打开文件”加载本地文档；3. 还能手动在地址栏输入file:///加文件路径访问；4. 最后可创建桌面快捷方式实现快速启动，四种方法均有效运行HTML文件。如果您编写了一个HTML文件，想要在浏览器中查看其实际效果，谷歌…

程序猿
2025年12月23日
0000