10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

只要不到 10 行代码,就能让大模型数学能力(gsm8k)提升 20%!

几名独立学者提出了大模型采样的改进方案,引起了开源社区的关注。

目前该方法已在 Mistral-7B 上取得成效,在 Llama3-70B 上的测试也正在进行。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

这种方法叫做最小 p 采样(min-p sampling),目的是平衡生成文本的连贯性和多样性。

立即进入“豆包AI人工智官网入口”;

立即学习“豆包AI人工智能在线问答入口”;

简单说就是让模型在不同场合发挥不同的特性,例如在事实问题上保持性能稳定,在写作等场景中又能发挥创意。

目前该方法已在 Mistral-7B 上取得成效,在 Llama-70B 上的测试也即将进行。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

在论文中作者提到,该方法已经获得了开源社区的广泛应用。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

同时作者还透露,Anthropic 和谷歌等闭源模型厂商也已经或正在针对 min-p 进行测试。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

消息也得到了谷歌方面的确认,从 OpenAI 跳槽到谷歌的开发者社区负责人Logan Kilpatrick已经回复说 “On it”(在做了)。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

微软 Copilot 的研究人员Abram Jackson看了后表示,这是他看到的首个有关推理过程 token 采样的改进,未来还有很大进步空间。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

值得一提的是,这项受到广泛关注的研究,主要作者 Minh Nhat Nguyen 根本没系统学过 CS,而是靠自学成才。

在一家名为 Apart Research 的 AI 安全研究机构帮助下,Minh 和团队其他成员一起完成了该项目。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

动态调整抽样阈值

min-p 是一种动态截断抽样方法,其核心是根据每一步 token 分布的最大概率,来缩放最小概率阈值。

这样做的目的,主要在于平衡生成文本的连贯性和多样性,特别是在 temperature 较高的条件下。

具体来说,min-p 引入了一个基础概率阈值p_base,表示进入采样池的最低概率要求。

在每一步生成 token 时,min-p 会将 p_base 与当前概率分布中最大的 token 概率 p_max 相乘,得到一个缩放后的绝对阈值p_scaled。

只有概率大于等于 p_scaled 的 token,才能够进入采样池。

当模型对某个 token 的预测概率非常高(即 p_max 很大)时,p_scaled 的值也会很高,导致采样池大幅缩小,绝大多数低概率 token 被过滤,只留下少数高把握的选择,确保了输出的连贯性;

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

而当模型对所有 token 的预测概率都比较接近(p_max 较低)时,p_scaled 的值也会相应变低,放宽了对采样池的要求,纳入更多中等概率的 token,给予模型更多发挥空间,生成更加多样化的内容。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

在确定采样池后,min-p 会根据 temperature 对 token 概率分布进行缩放。

它将 token 的对数概率除以一个温度参数 τ,并进行归一化后,就得到了 temperature 缩放后的概率分布。

大于 1 的 τ 值会使概率分布更加平缓,增加低概率 token 被选中的机会;

τ 小于 1 时则会使分布更加尖锐,强化高概率 token 的优势。

最后,min-p 从缩放后的采样池中,按照调整后的概率分布,随机抽取下一个 token。

稳定性和创意,” 我全都要 “

min-p 方法的效果究竟如何呢?作者使用了Mistral-7B作为基础模型进行了测试,我们来分场景看一下结果。

在推理任务中,作者采用了 GPQA 数据集。当 temperature 为 1 时,可以看到 min-p 相比于过去的 top-p 显现出了微小的优势。

随着 temperature 增加,GPQA 得分整体上呈现出了下降趋势,但可以观察到 min-p 的下降明显比 top-p 更慢。

直到 temperature 达到 3 时 min-p 的下降趋势才变得明显,此时 top-p 的得分已接近 0。

也就是说,相比于 top-p,min-p在推理任务中更好地保持了所需要的稳定性。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

同样需要保持稳定性能的还有数学类任务,这里作者使用了 GSM8K 数据集进行了测试。

结果 min-p 所对应的分数随 temperature 的下降比在 GPQA 中更快,但仍然缓于 top-p 方式。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

第三类任务是创意写作,这时对稳定性的要求就不是那么高了,而是需要模型发挥更多的创意。

这项测试使用 AlpacaEval 数据集完成,实验数据是从开源社区的一名独立评估者那里获得的。

实验结果显示,在 temperature=1.5、min-p=0.1 的设置下,min-p 的性能尤其突出,可生成 top-p 方法难以生成的创意写作内容。

在该参数下,min-p 方法得到的文本获得了 58.12% 的人类评判优选率,远高于其他方法在类似设置下的表现。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

论文地址:

https://arxiv.org/abs/2407.01082

GitHub:

https://github.com/menhguin/minp_paper/

参考链接:

https://x.com/menhguin/status/1826132708508213629

以上就是10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/96551.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月19日 22:33:17
下一篇 2025年11月19日 23:37:24

相关推荐

  • HTML、CSS 和 JavaScript 中的简单侧边栏菜单

    构建一个简单的侧边栏菜单是一个很好的主意,它可以为您的网站添加有价值的功能和令人惊叹的外观。 侧边栏菜单对于客户找到不同项目的方式很有用,而不会让他们觉得自己有太多选择,从而创造了简单性和秩序。 今天,我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

    2025年12月24日
    200
  • 前端代码辅助工具:如何选择最可靠的AI工具?

    前端代码辅助工具:可靠性探讨 对于前端工程师来说,在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而,并非所有工具都能提供同等的可靠性。 个性化需求 关于哪个AI工具最可靠,这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素: 立…

    2025年12月24日
    000
  • 带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

    响应式侧边导航栏不仅有助于改善网站的导航,还可以解决整齐放置链接的问题,从而增强用户体验。通过使用工具提示,可以让用户了解每个链接的功能,包括设计紧凑的情况。 在本教程中,我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。 对于那些一直想要一个干净、简…

    2025年12月24日
    000
  • 布局 – CSS 挑战

    您可以在 github 仓库中找到这篇文章中的所有代码。 您可以在这里查看视觉效果: 固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

    2025年12月24日
    000
  • 隐藏元素 – CSS 挑战

    您可以在 github 仓库中找到这篇文章中的所有代码。 您可以在此处查看隐藏元素的视觉效果 – codesandbox 隐藏元素 hiding elements hiding elements hiding elements hiding elements hiding element…

    2025年12月24日
    400
  • 居中 – CSS 挑战

    您可以在 github 仓库中找到这篇文章中的所有代码。 您可以在此处查看垂直中心 – codesandbox 和水平中心的视觉效果。 通过 css 居中 垂直居中 centering centering centering centering centering centering立即…

    2025年12月24日 好文分享
    300
  • 如何在 Laravel 框架中轻松集成微信支付和支付宝支付?

    如何用 laravel 框架集成微信支付和支付宝支付 问题:如何在 laravel 框架中集成微信支付和支付宝支付? 回答: 建议使用 easywechat 的 laravel 版,easywechat 是一个由腾讯工程师开发的高质量微信开放平台 sdk,已被广泛地应用于许多 laravel 项目中…

    2025年12月24日
    000
  • 如何在移动端实现子 div 在父 div 内任意滑动查看?

    如何在移动端中实现让子 div 在父 div 内任意滑动查看 在移动端开发中,有时我们需要让子 div 在父 div 内任意滑动查看。然而,使用滚动条无法实现负值移动,因此需要采用其他方法。 解决方案: 使用绝对布局(absolute)或相对布局(relative):将子 div 设置为绝对或相对定…

    2025年12月24日
    000
  • 移动端嵌套 DIV 中子 DIV 如何水平滑动?

    移动端嵌套 DIV 中子 DIV 滑动 在移动端开发中,遇到这样的问题:当子 DIV 的高度小于父 DIV 时,无法在父 DIV 中水平滚动子 DIV。 无限画布 要实现子 DIV 在父 DIV 中任意滑动,需要创建一个无限画布。使用滚动无法达到负值,因此需要使用其他方法。 相对定位 一种方法是将子…

    2025年12月24日
    000
  • 移动端项目中,如何消除rem字体大小计算带来的CSS扭曲?

    移动端项目中消除rem字体大小计算带来的css扭曲 在移动端项目中,使用rem计算根节点字体大小可以实现自适应布局。但是,此方法可能会导致页面打开时出现css扭曲,这是因为页面内容在根节点字体大小赋值后重新渲染造成的。 解决方案: 要避免这种情况,将计算根节点字体大小的js脚本移动到页面的最前面,即…

    2025年12月24日
    000
  • Nuxt 移动端项目中 rem 计算导致 CSS 变形,如何解决?

    Nuxt 移动端项目中解决 rem 计算导致 CSS 变形 在 Nuxt 移动端项目中使用 rem 计算根节点字体大小时,可能会遇到一个问题:页面内容在字体大小发生变化时会重绘,导致 CSS 变形。 解决方案: 可将计算根节点字体大小的 JS 代码块置于页面最前端的 标签内,确保在其他资源加载之前执…

    2025年12月24日
    200
  • Nuxt 移动端项目使用 rem 计算字体大小导致页面变形,如何解决?

    rem 计算导致移动端页面变形的解决方法 在 nuxt 移动端项目中使用 rem 计算根节点字体大小时,页面会发生内容重绘,导致页面打开时出现样式变形。如何避免这种现象? 解决方案: 移动根节点字体大小计算代码到页面顶部,即 head 中。 原理: flexível.js 也遇到了类似问题,它的解决…

    2025年12月24日
    000
  • 形状 – CSS 挑战

    您可以在 github 仓库中找到这篇文章中的所有代码。 您可以在此处查看 codesandbox 的视觉效果。 通过css绘制各种形状 如何在 css 中绘制正方形、梯形、三角形、异形三角形、扇形、圆形、半圆、固定宽高比、0.5px 线? shapes 0.5px line .square { w…

    2025年12月24日
    000
  • 谷歌搜索的鼠标悬停阴影效果是如何实现的?

    谷歌搜索悬停阴影效果解析 在谷歌搜索页面中,当鼠标悬停在搜索框或按钮上时,会出现一个微妙的边缘阴影。想要了解这一效果的实现原理,许多开发者可能率先想到使用 css。 css 探索 遗憾的是,在 css 代码中无法找到与阴影效果直接相关的属性或值。继续探索其他实现方法。 浏览器开发者工具助力 使用浏览…

    2025年12月24日
    000
  • 如何用 CSS 实现谷歌搜索框鼠标悬停时的边缘阴影效果?

    谷歌搜索框鼠标悬停时边缘阴影效果实现 对于谷歌搜索框在鼠标悬停时的边缘阴影效果,你可能找不到直接的 css 代码,但这种效果可以通过 box-shadow 属性实现。 box-shadow 可以创建箱子周围的阴影效果,它的语法如下: box-shadow: h-offset v-offset blu…

    2025年12月24日
    200
  • 如何实现谷歌搜索框鼠标悬停时的边缘阴影效果?

    如何实现谷歌搜索框鼠标悬停时的边缘阴影效果? 在谷歌搜索中,当鼠标悬停在搜索框和按钮上时,会产生一种精致的边缘阴影效果。实现这一效果需要使用 css 的 box-shadow 属性。 box-shadow 属性 box-shadow 属性允许在元素周围创建阴影效果。其语法为: box-shadow:…

    2025年12月24日
    200
  • 鼠标悬停时,谷歌搜索元素的阴影效果是如何实现的?

    鼠标悬停时突出显示谷歌搜索元素的阴影效果是如何实现的 该效果是通过 css 的 box-shadow 属性实现的,该属性用于在元素周围创建阴影效果。 当鼠标悬停在元素上时,应用 :hover 伪类,并添加 box-shadow 属性,为元素指定阴影效果。 下面是一个示例 css 代码,它给谷歌搜索框…

    2025年12月24日
    100
  • 有哪些美观的开源数字大屏驾驶舱框架?

    开源数字大屏驾驶舱框架推荐 问题:有哪些美观的开源数字大屏驾驶舱框架? 答案: 资源包 [弗若恩智能大屏驾驶舱开发资源包](https://www.fanruan.com/resource/152) 软件 [弗若恩报表 – 数字大屏可视化组件](https://www.fanruan.c…

    2025年12月24日
    000
  • 网站底部如何实现飘彩带效果?

    网站底部飘彩带效果的 js 库实现 许多网站都会在特殊节日或活动中添加一些趣味性的视觉效果,例如点击按钮后散发的五彩缤纷的彩带。对于一个特定的网站来说,其飘彩带效果的实现方式可能有以下几个方面: 以 https://dub.sh/ 网站为例,它底部按钮点击后的彩带效果是由 javascript 库实…

    2025年12月24日
    000
  • 网站彩带效果背后是哪个JS库?

    网站彩带效果背后是哪个js库? 当你访问某些网站时,点击按钮后,屏幕上会飘出五颜六色的彩带,营造出庆祝的氛围。这些效果是通过使用javascript库实现的。 问题: 哪个javascript库能够实现网站上点击按钮散发彩带的效果? 答案: 根据给定网站的源代码分析: 可以发现,该网站使用了以下js…

    好文分享 2025年12月24日
    100

发表回复

登录后才能评论
关注微信