大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

程序猿 • 2025年11月26日 15:18:05 • 科技 • 阅读 0

通过算法层面的创新，未来大语言模型做数学题的水平会不断地提高。

这几天，17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选赛中取得全球第 12 名的新闻刷了屏。而同时，AI 挑战赛的成绩显示，在所有 563 支 AI 参赛队伍中，最高分 34 分，平均分 18 分，赶上了人类选手平均水平。

AI 参与数学竞赛的主要短板是逻辑推理能力弱，证明题很难拿到完整得分点。这也是 GPT-4、LLaMA 等当前大语言模型（LLM）在需要策略和逻辑推理的任务中面临的重大挑战。

其中的一个重要障碍是输出的准确性和可信度，尤其是在需要保证精度的数学上下文中，LLM 在推理时往往产生幻觉。输出结果表面上看似合理，但实际上不相关或事实不确，最终导致不合理的推理过程。

自然像自我提炼这样的重写技术有助于解决这种偏向，但依然可能导致现实世界复杂的数学问题产生误导性或错误的结果。

因此，为了应对这些挑战，来自复旦大学、上海 AI Lab 的研究者提出了 MCT Self-Refine（MCTSr），将 LLM 与蒙特卡洛树搜索（MCTS）算法相结合，并重点提高 LLM 在复杂数学推理任务（比如奥数竞赛题）中的表现。

MCTS是一种决策工具，广泛应用于人工智能中需要战略规划的场景，通常用于游戏和复杂的问题解决环境。本文通过将MCTS的系统探索能力与LLM的Self-Refine和Self-Evaluation能力相结合，旨在创建一个更强大的框架来应对当前LLM难以解决的复杂推理任务。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2406.07394

项目地址：https://github.com/trotsky1997/MathBlackBox

不过，在将 MCTS 与 LLM 集成过程中存在一些技术挑战。传统的 MCTS 策略可能与 LLM 输出的随机性和生成性不太吻合，后者通常涉及无限、连续的潜在动作空间。这种不一致需要在 MCTS 框架内采用定制的期望计算和反向传播方法，以更好地适应 LLM 的特有属性。

此外，研究者还引入了一种动态剪枝策略，它结合了改进的置信上限（UCB）公式，以优化高风险任务中有效决策制定所需要的探索 – 利用平衡。

可以说，这项研究推进了 LLM 在复杂推理挑战中的应用，为未来整合 AI 相关的技术创新奠定了基础，从而使得 LLM 驱动的应用拥有了更强大的决策制定、推理准确性和可靠性。

方法概览

MCTSr 架构图如图 1 所示：

MCTSr 工作流包括：

初始化：使用模型生成的答案和虚拟响应建立根节点，以最大限度地减少模型过度拟合趋势；

选择：该算法采用值函数 Q 对所有未完全展开的答案进行排序，并采用贪心策略选择值最高的节点进行进一步的探索和优化；

Self-Refine ：选择好的答案 a 使用 Self-Refine 框架进行优化。最初，模型生成反馈 m，指导优化过程以产生增强的答案 a ′；

Self-Evaluation：精炼后的答案经过评分从而采样一个奖励值，并计算其 Q 值。这涉及模型自我奖励反馈和约束，如严格的评分标准和抑制满分，以确保评分的可靠性和公平性；

反向传播：将精炼答案的值反向传播到其父节点和其他相关节点，以更新树的值信息。如果任何子节点的 Q 值发生变化，则更新父节点的 Q；

UCT 更新：在所有节点的 Q 值更新完成后，确定一个候选节点集合 C，用于进一步扩展或选择，然后使用 UCT 更新公式更新所有节点的 UCT 值，以备下一步的选择阶段。

迭代上述阶段，直到满足终止条件 T 为止。

Self-Refine

在 self-refine 阶段，模型通过多轮对话完善提示来优化针对问题 P 的答案 a。首先，模型生成一个关于答案 a 的反思性或批判性评论 m。随后，在 m 的指导下，模型修改答案 a，产生一个改进版本 a’，这种迭代的精炼方式提高了模型响应质量。

自评估

在数学问题 P 的答案精炼过程中，一个答案 a 的 Q 值被定义为将 a 进一步精炼成更优答案的预期质量。这个定义是基于从 a 到其重写形式的转换具有马尔可夫性质，即下一个状态（即改写后的答案）仅依赖于当前状态（即当前的答案 a），而与之前的状态无关。

此外，研究者还设计了三个约束：提示约束、满分抑制、重复采样。采样后，计算 a 的 Q 值。

反向传播

在所有叶节点的奖励值经过采样和 Q 值更新完成后，然后将这些变化传播至其父节点和祖节点。在这个更新过程中，如果节点 a 的子节点集合 Children (a) 中任何元素的 Q 函数值发生变化，那么节点 a 的 Q 函数值也将进行更新。这样的传播确保了节点的 Q 值能够反映其所有可能子节点的最新状态和评估。

新CG儿

数字视觉分享平台 | AE模板_视频素材

412 查看详情

更新 UCT 和选择

在更新了树中所有节点的 Q 值之后，会进入下一轮选择阶段。这个过程包括以下步骤：

候选节点选择：在选择节点时，研究者无需从根节点开始，而是按层次顺序遍历树中的节点。

UCT 更新：借鉴 AlphaGo，该研究使用 UCT 和 UCB-1 方法来平衡节点的探索和利用；对于候选集 C 中的节点 a，其 UCT_a 值为：

终止函数

提前终止：当搜索结果的改进开始减少或连续搜索产生重复结果时，终止发生。

搜索约束：一旦展开次数达到预定限制或树中的一个或多个节点满足最大深度约束，搜索就会终止。

实验结果

为了评估 MCTSr 算法在解决数学问题中的有效性，研究者将 LLaMA3-8B 作为基础模型，并使用 MCTSr 进行增强。他们在 Zero-Shot CoT、Self-Refine、4-rollouts MCTSr 和 8-rollouts MCTSr 等几种设置中，将 LLaMA3-8B 与 GPT-4、Claude 3 和 Gemini 1.5-Pro 等进行了比较。

研究者在 GSM8K 和 GSM-hard 测试集（它们分别包含了典型和具有挑战性的数学问题）上评估了上述方法，结果如下表 1 所示。

可以发现，MCTSr 的 rollout 次数与成功率之间存在着直接相关性，并随着迭代次数增加而显著提升，在不太复杂的 GSM8K 中尤为明显。不过对于更复杂的 GSM-Hard 测试集，即使 rollout 次数更高也会达到性能上限，表明当前策略在解决复杂问题时存在局限性。

这些结果强调了 MCT-Self-refine 算法的稳健性和潜在边界，以及持续改进的必要性，从而有效应对更复杂的挑战。

下表 2 展示了在 MATH 数据集上应用不同复杂度级别的 MCT-Self-refine 算法的结果。数据集分为五个难度级别，从 Level 1（最简单）到 Level 5（最具挑战性）。

结果显示，Level 1 的成功率最高，8 次 rollout 后，MCTSr 实现了 90.16% 的成功率，解决了 437 个问题中的 394 个。随着 rollout 次数的增加，这一级别的成功率显著提高。

在最具挑战性的 Level 5 难度，8 次 rollout 后，MCTSr 的成功率为 34.06%，解决了 1324 个问题中的 451 个。这说明了随着难度不断增加，该算法在高度复杂的场景中性能受到限制。

所有级别的整体性能显示，8 次 rollout 后，MCTSr 的累计成功率为 58.24%，解决了 5000 个问题中的 2912 个。这一成功率相较于 Zero-Shot CoT 的初始成功率 24.36% 有了显著提高。这表明了，rollout 次数的增加与成功率的提高呈现出一致性，强调了 MCT-Self-refine 算法在提升不同数学复杂度级别的问题解决能力方面的有效性。

这些结果还验证了 MCT-Self-refine 算法在学术和问题解决上下文中的潜力，并强调了其对 MATH 数据集中不同复杂度级别问题的可扩展性和适应性。

下表 3 为 MCT-Self-refne 算法在奥数竞赛的三个数据集上进行了测试：AlME、GAIC Math Odyssey 和 OlympiadBench。

AIME：从 Zero-Shot CoT 的 2.36%（解决 22 个问题）到 MCTSr 的 11.79%（解决 110 个问题）。

GAIC Math Odyssey：成功率从 17.22%（解决 67 个问题）上升至 49.36%（解决 192 个问题）。

OlympiadBench：从 Zero-Shot CoT 的 1.25%（解决 16 个问题）提高到 MCTSr 的 7.76%（解决 99 个问题）。

这些结果证实了 MCT-Self-refine 算法在未见过的数学问题上的适用性，表明其在奥林匹克等竞争性学术环境中具有优势。

如表 4 所示。与当前闭源大模型进行比较时，MCTSr 可以有效提升小参数开源模型（如 LLaMa-3）的数学推理能力到相当的水平。

更多技术细节和实验结果请参阅原论文。

以上就是大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/793869.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

上一篇 2025年11月26日 15:13:24

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

下一篇 2025年11月26日 15:18:16

好文分享

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
2000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
0000
好文分享

带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

响应式侧边导航栏不仅有助于改善网站的导航，还可以解决整齐放置链接的问题，从而增强用户体验。通过使用工具提示，可以让用户了解每个链接的功能，包括设计紧凑的情况。在本教程中，我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。对于那些一直想要一个干净、简…

程序猿
2025年12月24日
0000
好文分享

布局 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在这里查看视觉效果：固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

程序猿
2025年12月24日
0000
好文分享

隐藏元素 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看隐藏元素的视觉效果 – codesandbox 隐藏元素 hiding elements hiding elements hiding elements hiding elements hiding element…

程序猿
2025年12月24日
4000
居中 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看垂直中心 – codesandbox 和水平中心的视觉效果。通过 css 居中垂直居中 centering centering centering centering centering centering立即…

程序猿
2025年12月24日 • 好文分享
3000
好文分享

如何在 Laravel 框架中轻松集成微信支付和支付宝支付？

如何用 laravel 框架集成微信支付和支付宝支付问题：如何在 laravel 框架中集成微信支付和支付宝支付？回答：建议使用 easywechat 的 laravel 版，easywechat 是一个由腾讯工程师开发的高质量微信开放平台 sdk，已被广泛地应用于许多 laravel 项目中…

程序猿
2025年12月24日
0000
好文分享

如何在移动端实现子 div 在父 div 内任意滑动查看？

如何在移动端中实现让子 div 在父 div 内任意滑动查看在移动端开发中，有时我们需要让子 div 在父 div 内任意滑动查看。然而，使用滚动条无法实现负值移动，因此需要采用其他方法。解决方案：使用绝对布局（absolute）或相对布局（relative）：将子 div 设置为绝对或相对定…

程序猿
2025年12月24日
0000
好文分享

移动端嵌套 DIV 中子 DIV 如何水平滑动？

移动端嵌套 DIV 中子 DIV 滑动在移动端开发中，遇到这样的问题：当子 DIV 的高度小于父 DIV 时，无法在父 DIV 中水平滚动子 DIV。无限画布要实现子 DIV 在父 DIV 中任意滑动，需要创建一个无限画布。使用滚动无法达到负值，因此需要使用其他方法。相对定位一种方法是将子…

程序猿
2025年12月24日
0000
好文分享

移动端项目中，如何消除rem字体大小计算带来的CSS扭曲？

移动端项目中消除rem字体大小计算带来的css扭曲在移动端项目中，使用rem计算根节点字体大小可以实现自适应布局。但是，此方法可能会导致页面打开时出现css扭曲，这是因为页面内容在根节点字体大小赋值后重新渲染造成的。解决方案：要避免这种情况，将计算根节点字体大小的js脚本移动到页面的最前面，即…

程序猿
2025年12月24日
0000
好文分享

Nuxt 移动端项目中 rem 计算导致 CSS 变形，如何解决？

Nuxt 移动端项目中解决 rem 计算导致 CSS 变形在 Nuxt 移动端项目中使用 rem 计算根节点字体大小时，可能会遇到一个问题：页面内容在字体大小发生变化时会重绘，导致 CSS 变形。解决方案：可将计算根节点字体大小的 JS 代码块置于页面最前端的标签内，确保在其他资源加载之前执…

程序猿
2025年12月24日
2000
好文分享

Nuxt 移动端项目使用 rem 计算字体大小导致页面变形，如何解决？

rem 计算导致移动端页面变形的解决方法在 nuxt 移动端项目中使用 rem 计算根节点字体大小时，页面会发生内容重绘，导致页面打开时出现样式变形。如何避免这种现象？解决方案：移动根节点字体大小计算代码到页面顶部，即 head 中。原理： flexível.js 也遇到了类似问题，它的解决…

程序猿
2025年12月24日
0000
好文分享

形状 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看 codesandbox 的视觉效果。通过css绘制各种形状如何在 css 中绘制正方形、梯形、三角形、异形三角形、扇形、圆形、半圆、固定宽高比、0.5px 线？ shapes 0.5px line .square { w…

程序猿
2025年12月24日
0000
好文分享

有哪些美观的开源数字大屏驾驶舱框架？

开源数字大屏驾驶舱框架推荐问题：有哪些美观的开源数字大屏驾驶舱框架？答案：资源包 [弗若恩智能大屏驾驶舱开发资源包](https://www.fanruan.com/resource/152) 软件 [弗若恩报表 – 数字大屏可视化组件](https://www.fanruan.c…

程序猿
2025年12月24日
0000
好文分享

网站底部如何实现飘彩带效果？

网站底部飘彩带效果的 js 库实现许多网站都会在特殊节日或活动中添加一些趣味性的视觉效果，例如点击按钮后散发的五彩缤纷的彩带。对于一个特定的网站来说，其飘彩带效果的实现方式可能有以下几个方面：以 https://dub.sh/ 网站为例，它底部按钮点击后的彩带效果是由 javascript 库实…

程序猿
2025年12月24日
0000
网站彩带效果背后是哪个JS库？

网站彩带效果背后是哪个js库？当你访问某些网站时，点击按钮后，屏幕上会飘出五颜六色的彩带，营造出庆祝的氛围。这些效果是通过使用javascript库实现的。问题：哪个javascript库能够实现网站上点击按钮散发彩带的效果？答案：根据给定网站的源代码分析：可以发现，该网站使用了以下js…

程序猿
好文分享 2025年12月24日
1000
好文分享

产品预览卡项目

这个项目最初是来自 Frontend Mentor 的挑战，旨在使用 HTML 和 CSS 创建响应式产品预览卡。最初的任务是设计一张具有视觉吸引力和功能性的产品卡，能够无缝适应各种屏幕尺寸。这涉及使用 CSS 媒体查询来确保布局在不同设备上保持一致且用户友好。产品卡包含产品图像、标签、标题、描述和…

程序猿
2025年12月24日
1000
好文分享

如何利用 echarts-gl 绘制带发光的 3D 图表？

如何绘制带发光的 3d 图表，类似于 echarts 中的示例？为了实现类似的 3d 图表效果，需要引入 echarts-gl 库：https://github.com/ecomfe/echarts-gl。 echarts-gl 专用于在 webgl 环境中渲染 3d 图形。它提供了各种 3d 图…

程序猿
2025年12月24日
0000
好文分享

如何在 Element UI 的 el-rate 组件中实现 5 颗星 5 分制与百分制之间的转换？

如何在el-rate中将5颗星5分制的分值显示为5颗星百分制？要实现该效果，只需使用 el-rate 组件的 allow-half 属性。在设置 allow-half 属性后，获得的结果乘以 20 即可得到0-100之间的百分制分数。如下所示： score = score * 20; 动态显示鼠标…

程序猿
2025年12月24日
1000
好文分享

CSS 最佳实践：后端程序员重温 CSS 时常见的三个疑问？

CSS 最佳实践：提升代码质量作为后端程序员，在重温 CSS/HTML 时，你可能会遇到一些关于最佳实践的问题。以下将解答三个常见问题，帮助你编写更规范、清晰的 CSS 代码。 1. margin 设置策略当相邻元素都设置了 margin 时，通常情况下应为上一个元素设置 margin-bott…

程序猿
2025年12月24日
0000

发表回复

登录后才能评论

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

关于作者

相关推荐

发表回复