首次解释 LLM 如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

推理模型常表现出类似自我反思的行为,但它们是否真的能有效探索新策略?

对此,西北大学与 Google、谷歌 DeepMind 团队对传统强化学习与反思的关系提出质疑,并提出了贝叶斯适应的强化学习方法,首次解释了为何、如何以及何时应进行反思和探索。

 首次解释 LLM 如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

通过对比采用传统强化学习和新方法训练的模型,研究人员发现:

在完成“模型需在3步内输出三个连续相同字符”的合成任务中,传统RL往往一条道走到黑,而新方法懂得排除无效假设并适时切换策略。

此外,在数学推理任务中,新方法在大多数基准和模型上均获得了更高的准确率,且解题所耗token数更少。

更有趣的是,团队发现反思次数并非决定性能的唯一因素,部分基础模型虽有大量徒劳的反思,但并未带来实质性信息增益。

以下详细展开。

贝叶斯自适应强化学习激发反思性探索

直观来看,测试时的试错步骤仅在能带来信息增益时才有益,然而现有强化学习并未告知模型试错和反思带来的信息增益。

实际上,基于马尔可夫假设的传统强化学习范式存在局限——探索仅发生于训练阶段,代理在部署时通常只利用训练中学到的确定性策略。

马尔可夫假设使RL代理仅依据当前状态做决策,历史信息(如试错并回溯的思考过程)对策略的影响都被压缩至当前状态表示中。

研究者指出,这种传统范式可能导致模型通过记忆训练解答获得高分,而无需真正学会反思;模型内部思考的试错也无法提供信息增益。

那么,测试时的反思性探索真的有用吗?如何才能学到有效的反思性探索策略呢?

 首次解释 LLM 如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

为了解决上述问题,研究者研究了与传统RL不同的贝叶斯自适应RL框架,简称BARL。

其核心思想是将LLM的反思性探索转化为贝叶斯自适应强化学习问题处理,通过引入对环境不确定性的建模,让模型在推理过程中自适应地进行探索。

简而言之,BARL不再局限于传统RL的马尔可夫假设,而是考虑了MDP的不确定性(如不同策略对一道题的有效性),因此需要将所有历史观察(包括奖励反馈)纳入决策中。

这种框架天然平衡了奖励最大化的利用和信息获取的探索。

具体而言,在BARL中,团队假设模型面对的是一个存在未知要素的任务,可以用一组假设的MDP(马尔可夫决策过程)来描述这些不确定性。

模型对每个假设MDP保持一个后验概率(belief),随着推理过程不断更新。

每当模型选择一个动作(如生成下一个思维步骤),都会根据观察到的结果更新对各个假设的信念。

BARL的目标策略并非针对单一确定环境优化,而是直接优化在后验分布下的期望累积回报。这意味着模型在决策时会考虑“这样做收益是多少,同时这样的行动能多大程度减少不确定性?”。

 首次解释 LLM 如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

BARL明确将测试时的表现纳入优化目标,通过最大化后验下的期望回报鼓励模型考虑未知情况。

模型明白只有主动探索才能在未知情境下保持高收益,因此反思是为了获取关键信息,避免一条路走错到底。

简而言之,BARL让模型意识到——

适时反思、多一种尝试可能带来更高的回报,这正是反思行为得以涌现的动机。

全新推理模型强化学习算法

研究者针对推理模型给出了BARL决策的数学形式,其中核心是如何计算后验的期望值:

 首次解释 LLM 如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

该公式针对多个候选答案(如best-of-N中的N个答案)计算了预期回报加权求和,权重一方面是模型认为该候选答案的好坏,另一方面还包含了一个“校正项”——用来衡量实际观察结果与模型预期的偏差。

正是这个校正项充当了反思信号:如果某个策略原本被模型高度看好,但奖励反馈结果不尽如人意,那这个差异会迅速降低该假设的权重,提醒模型“也许该换一种思路了”,这正回答了模型应该何时进行反思和探索。

通过这种机制,BARL的决策公式指导模型在每个步骤判断是否需要反思、何时切换策略。

这也是BARL反思性决策的精髓——让模型基于贝叶斯后验来权衡“继续当前思路”还是“尝试新思路”。

这种更新过程鼓励模型拼接和切换不同的推理策略,就像把多条可能的解题思路串联起来,并在中途发现某条思路行不通时迅速切换到另一条。

BARL通过端到端的RL优化自动实现了这一点,可谓以原则化的方式赋予了LLM在推理过程中的“何时反思、如何反思”的指南,达到了以一条长CoT线性化best-of-N的效果。

合成任务案例:更清楚的对比RL和BARL

为了直观展示BARL如何在测试时展现反思探索能力,作者设计了一个合成任务:模型需要在3步内输出三个连续相同的字符(0/1/2),才能获得奖励。

训练阶段,提示(prompt)字符只会是0或1,模型学会了对应输出000或111来拿到奖励;但测试时,提示字符变为了2。

直觉上,训练时学到的确定性策略在遇到新字符时将不再有效,需要模型即时探索正确的输出模式。

 首次解释 LLM 如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

让两个模型来挑战这个任务:一个用传统马尔可夫RL训练,另一个用BARL方法训练。

Markovian RL很快便最大化了训练准确率,几乎将这些答案背了下来。

BARL在训练中同样学会了正确输出模式,但更有趣的是,它同时学会了根据不确定性来调整策略——这一点要等到测试才能看出差别。

测试阶段揭示了截然不同的行为。即当提示变为新字符2时,Markovian RL由于在训练中只记住了固定的输出(000/111)无法泛化,因此几乎总是答错,测试准确率接近于零。

而BARL代理则展现出“反思”能力。它会先尝试某个策略,如果初步尝试未获得奖励,就迅速反思切换,尝试另一种可能的序列。

下图形象说明了Markov RL和BARL在该合成任务中的决策差异——

Markov策略一条路走到黑,BARL策略则懂得排除无效假设,适时切换新策略。

 首次解释 LLM 如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

可以看到,左图中马尔可夫RL模型训练时成绩很快逼近100%,但测试时几乎完全失败,中图的BARL模型则不仅训练表现提升,在测试时也取得了显著的高准确率。

值得注意的是,右图显示如果事先给予BARL一些关于任务结构的先验知识(如“奖励模式就是某个字符重复三次”),它的收敛速度和最终成绩还会更好。

这说明了候选策略既要有多样性以覆盖未知情况,又要有合理的可信度以不至于无谓浪费精力。

 首次解释 LLM 如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

数学推理任务:性能全面提升,显著节省Token

研究人员还将BARL应用于LLM的数学推理领域,并比对了GRPO和“Progress”奖励基线(给予正确答案概率的分步奖励)。

BARL在大部分基准和模型上均取得了更高的准确率。

 首次解释 LLM 如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

不仅如此,BARL还展现出更高的效率优势。

作者特别度量了每种方法为解出题目所耗费的token数量,结果发现在达到同等甚至更高准确率的情况下,BARL生成的内容要短得多。

 首次解释 LLM 如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

这意味着,BARL模型并不会为了“多反思几次”而付出冗长啰嗦的代价,反而因为每次反思都更有针对性、更有效。

作者还观察到另一个有趣的现象:反思次数本身并非决定性能的唯一因素。

基础模型往往出现很多徒劳的反思,并没有带来实质的信息增益。相比之下,BARL的反思行为更加“有目的性”。

![](/uploads/2025060

以上就是首次解释 LLM 如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/85389.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月17日 05:02:24
下一篇 2025年11月17日 05:33:56

相关推荐

  • 谷歌搜索的鼠标悬停阴影效果是如何实现的?

    谷歌搜索悬停阴影效果解析 在谷歌搜索页面中,当鼠标悬停在搜索框或按钮上时,会出现一个微妙的边缘阴影。想要了解这一效果的实现原理,许多开发者可能率先想到使用 css。 css 探索 遗憾的是,在 css 代码中无法找到与阴影效果直接相关的属性或值。继续探索其他实现方法。 浏览器开发者工具助力 使用浏览…

    2025年12月24日
    000
  • 如何用 CSS 实现谷歌搜索框鼠标悬停时的边缘阴影效果?

    谷歌搜索框鼠标悬停时边缘阴影效果实现 对于谷歌搜索框在鼠标悬停时的边缘阴影效果,你可能找不到直接的 css 代码,但这种效果可以通过 box-shadow 属性实现。 box-shadow 可以创建箱子周围的阴影效果,它的语法如下: box-shadow: h-offset v-offset blu…

    2025年12月24日
    200
  • 如何实现谷歌搜索框鼠标悬停时的边缘阴影效果?

    如何实现谷歌搜索框鼠标悬停时的边缘阴影效果? 在谷歌搜索中,当鼠标悬停在搜索框和按钮上时,会产生一种精致的边缘阴影效果。实现这一效果需要使用 css 的 box-shadow 属性。 box-shadow 属性 box-shadow 属性允许在元素周围创建阴影效果。其语法为: box-shadow:…

    2025年12月24日
    200
  • 鼠标悬停时,谷歌搜索元素的阴影效果是如何实现的?

    鼠标悬停时突出显示谷歌搜索元素的阴影效果是如何实现的 该效果是通过 css 的 box-shadow 属性实现的,该属性用于在元素周围创建阴影效果。 当鼠标悬停在元素上时,应用 :hover 伪类,并添加 box-shadow 属性,为元素指定阴影效果。 下面是一个示例 css 代码,它给谷歌搜索框…

    2025年12月24日
    100
  • 当父元素仅设置行高时,块级和行内块级元素的行为有何区别?

    当父元素仅设置行高时,块级或行内块级子元素的行为 在 html 中,当父元素仅设置行高 line-height 时,块级或行内块级元素的行为会有所不同。 <line-height: 60px; background-color: antiquewhite; 哈哈哈 行内块级元素(display…

    2025年12月24日
    200
  • CSS 砌体 Catness

    css 就像技术中的其他东西一样 – 它总是在变化和发展。该领域正在进行的开发是 css 网格布局模块级别 3,也称为 css masonry 布局。 theo 制作了一段视频,介绍了它的开发方式以及苹果和谷歌就如何实施它进行的辩论。 所有这些让我很高兴尝试 css 砌体! webkit…

    好文分享 2025年12月24日
    000
  • 谷歌浏览器重命名文件后缩进消失,火狐浏览器却不会,这是为什么?

    谷歌浏览器重命名文件后缩进消失,而火狐浏览器不会 在谷歌浏览器中使用 WEB IDE 时遇到一个奇怪的问题。当重命名目录树中的文件后,目录树左侧的缩进消失了。但是,在开发者工具中发现导致缩进消失的其实是设置了 margin-right: -17px,而不是正常的 margin-left: -17px…

    2025年12月24日
    000
  • 为什么重命名文件后,谷歌浏览器和火狐浏览器的目录树缩进表现不同?

    为什么在重命名文件后,谷歌浏览器和火狐浏览器的目录树表现不同? 一位开发者遇到了一个令人迷惑的问题:在谷歌浏览器中的 WEB IDE 中重命名文件时,目录树中的缩进会消失。经过检查,开发者发现目录树元素有一个 margin-right:-17px 样式,这与预期中 margin-left:-17px…

    2025年12月24日
    300
  • 谷歌浏览器和火狐浏览器在重命名文件时,为何表现出不同的缩进差异?

    浏览器在重命名文件时表现差异的原因 当你使用谷歌浏览器中的 WEB IDE 重命名文件时,你遇到的问题是:整个目录树向左移动,缩进消失。同时,你发现该元素设置了 margin-right: -17px,但它应该设置为 margin-left: -17px。 这个问题的原因是因为谷歌浏览器在处理 CS…

    2025年12月24日
    200
  • 谷歌浏览器目录树缩进消失:是 Bug 还是配置问题?

    浏览器中的目录树缩进差异 问题: 在谷歌浏览器使用 WEB IDE 时,重命名文件会消除目录树的缩进,但火狐浏览器没有这个问题。这是谷歌的 Bug 吗? 答案: 不是谷歌的 Bug。 解释: 在 Google 浏览器中,浏览器错误地将 margin-right:-17px 应用于目录树元素,而不是 …

    2025年12月24日
    000
  • 如何使用 CSS 渐变实现仅显示左右两端的多彩边框?

    使用 css 渐变实现多彩边框 在需要给元素添加边框时,我们可以通过 css 的 border-image 属性实现渐变边框效果。例如,以下代码可以设置一个左右两端显示渐变色的边框: border-image: linear-gradient(rgba(255, 255, 255, 0.00) 0%…

    2025年12月24日
    000
  • CSS 样式隔离难题:不同项目如何兼容不同版本组件库?

    CSS 样式隔离难题:不同项目如何兼容不同版本组件库? 在软件开发中,不同的项目经常会使用不同的组件库或框架版本。当这些项目需要集成在一起时,不同样式之间的冲突就成了一个难题。在这个案例中,项目 A 和 B 都使用 ant-design-vue 组件库,但版本不一致。由于部分 A 项目中的组件 CS…

    2025年12月24日
    000
  • 在 Sass 中使用 Mixin

    如果您正在深入研究前端开发世界,那么您很可能遇到过sass(语法很棒的样式表)。 sass 是一个强大的 css 预处理器,它通过提供变量、嵌套、函数和 mixins 等功能来增强您的 css 工作流程。在这些功能中,mixins 作为游戏规则改变者脱颖而出,允许您有效地重用代码并保持样式表的一致性…

    2025年12月24日
    200
  • 零基础学习如何快速掌握CSS框架:快速入门指南

    CSS框架快速入门指南:从零开始学习如何快速做好CSS框架,需要具体代码示例 引言:在当今的Web开发中,CSS框架被广泛应用于构建漂亮、响应式的网页设计。CSS框架可以帮助开发者快速搭建美观、一致的网页布局,减少开发时间。本文将介绍如何从零开始学习并掌握使用CSS框架,以及提供具体的代码示例。 一…

    2025年12月24日
    000
  • 从零开始学习CSS3:逐步掌握核心技术

    从零开始学习CSS3:逐步掌握核心技术 CSS(层叠样式表)是网页设计中不可或缺的一部分,它决定了网页的外观和布局。随着互联网的发展,CSS也不断更新,其中最新版本为CSS3。CSS3引入了许多新的特性和功能,提供更多的设计选择和更丰富的用户体验。本文将介绍如何从零开始学习CSS3,掌握其核心技术。…

    2025年12月24日
    000
  • CSS3的学习轨迹和常见误区解析

    CSS3的学习轨迹和常见误区解析 引言:随着Web技术的不断发展,CSS3已经成为了前端工程师必备的技能之一。通过掌握CSS3的各种功能和特效,我们能够创建出更加丰富多彩的网页布局和交互效果。本文将介绍CSS3的学习轨迹,同时分析一些常见的误区,并提供一些代码示例。 一、学习轨迹: 1.掌握基本语法…

    2025年12月24日
    000
  • CSS怪异盒模型和标准盒模型如何使用

    这次给大家带来CSS怪异盒模型和标准盒模型如何使用,使用CSS怪异盒模型和标准盒模型的注意事项有哪些,下面就是实战案例,一起来看一下。 在html文档中,每个渲染在页面中的标签都是一个个盒子模型。 盒子模型又分为 : W3C标准的盒子模型 和 IE标准的盒子模型。 由于目前大部分主流的浏览器支持的是…

    2025年12月24日 好文分享
    000
  • html5怎么设置月份_HTML5用input type=”month”让用户选择年月月份【设置】

    HTML5的input type=”month”提供原生年月选择器,格式为“YYYY-MM”,支持value默认值、min/max范围限制、name表单提交,并需JavaScript降级兼容旧浏览器。 如果您希望在网页中提供一个简洁的年月选择控件,HTML5 的 input …

    2025年12月23日
    200
  • 谷歌如何使用html5_谷歌浏览器HTML5使用与支持设置技巧【详解】

    Chrome中HTML5问题需通过五步解决:一、更新至v132+确保基础支持;二、在chrome://flags启用WebGPU等实验功能;三、用chrome://gpu、chrome://media-internals及Console命令验证硬件加速与API就绪;四、在网站设置中授权相机、位置等权…

    2025年12月23日
    000
  • 谷歌浏览器怎么运行html_谷歌浏览器运行html方法【教程】

    可通过拖拽HTML文件至谷歌浏览器窗口直接预览;2. 也可通过浏览器菜单选择“打开文件”加载本地文档;3. 还能手动在地址栏输入file:///加文件路径访问;4. 最后可创建桌面快捷方式实现快速启动,四种方法均有效运行HTML文件。 如果您编写了一个HTML文件,想要在浏览器中查看其实际效果,谷歌…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信