开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

开源模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。

新模型名为Reflection 70B,使用一种全新训练技术,让 AI 学会在推理过程中纠正自己的错误和幻觉。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

比如最近流行的数 r 测试中,一开始它犯了和大多数模型一样的错误,但主动在 标签中纠正了自己。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

在官方评测中,70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准 GSM8K 上直接刷爆,得分 99.2%。

这个结果也让 OpenAI 科学家、德扑 AI 之父 Noam Brown 激情开麦:

GSM8K 得分 99%!是不是可以正式淘汰这个基准了?

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

模型刚刚上线网友就把试玩挤爆了,对此 Meta 还主动支援了更多算力。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

在网友测试中,Reflection 70B 能回答对 GSM8K 数据集中本身答案错误的问题:

我向模型提供了 GSM8K 中存在的 5 个 “ground_truth” 本身就不正确的问题。

模型没有重复数据集中的错误答案,而是全部回答对了,这很令人印象深刻,表明那 99.2% 的准确率并非来自于记忆测试集!

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

数各种 r 都不在话下,连生造词”drirrrngrrrrrnnn” 中有几个 r 也能被正确数对。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

网友纷纷对小团队做出的开源超越顶流闭源感到惊讶,现在最强开源模型可以在本地运行了。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

关键 70B 还只是个开始,官方表示下周还会发布更大的Reflection 405B。

预计 405B 性能将大幅优于 Sonnet 和 GPT-4o。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

Reflection 70B 权重已公开,API 访问将于今天晚些时候由 Hyperbolic Labs 提供。

模型能自我反思纠正错误

目前关于 Reflection 70B 的更多细节如下。

Reflection 70B 能力提升的关键,是采用了一种名为Reflection-Tuning的训练方法,它能够让模型反思自己生成的文本,在最终确定回应前检测并纠正自身推理中的错误。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

训练中的数据来自使用 GlaiveAI 平台生成的合成数据。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

Reflection 70B 基于 Llama 3.1 70B Instruct,可以使用与其它 Llama 模型相同的代码、pipeline 等从 Reflection Llama-3.1 70B 进行采样。

它甚至使用了标准的 Llama 3.1 聊天格式。

不过,Reflection 70B 引入了一些特殊 tokens,结构化输出过程。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

如下面这个例子所展示的,规划过程分为一个独立的步骤,这样做可以提高 CoT 效果,并保持输出精炼:

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

模型将从在 和 标签内输出推理开始,一旦对其推理感到满意,就会在 和 标签内输出最终答案。

所以它能够将其内部思考和推理与最终答案分离。

在 部分,模型可能会输出一个或多个 标签,这表明模型发现了其推理中的错误,并将在提供最终答案之前尝试纠正该错误。

系统提示如下:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.

(你是一个世界级人工智能系统,能够进行复杂的推理和反思。在标签内对查询进行推理,然后在标签内提供你的最终回应。如果你发现自己在任何时候推理出错,请在标签内纠正自己。)

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

此外值得一提的是,基准测试中,所有基准都已通过 LMSys 的 LLM Decontaminator 检查污染,隔离了 部分,并单独对这一部分进行测试。

使用 Reflection 70B 的时候,官方还分享了小 tips:

初步建议参数 temperature 为 .7 , top_p 为 .95

为提高准确性,最好附加 “Think carefully.” 在 Prompt 末尾

官方还表示,下周会发布一份报告,详细介绍模型训练过程和发现。

Agent 创业团队打造

Reflection 70B 的背后是一支小团队,由 HyperWriteAI 的 CEO Mutt Shumer带领。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

领英显示,Mutt Shumer 是一位连续创业者,毕业于美国锡拉丘兹大学,现任 OthersideAI 的联合创始人兼 CEO。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

OthersideAI 是一家 AI 应用公司,致力于通过大规模 AI 系统开发全球最先进的自动补全工具,也是 HyperWrite 的幕后公司。

HyperWrite 是一个浏览器操作 agent,可以像人一样操作谷歌浏览器来完成一系列任务,比如订披萨:

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

和 gpt-llm-trainer 一样,你只需要用文字描述目标,它就会一边列步骤,一边执行。

刚推出时号称 ” 比 AutoGPT 强 “。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

 HyperWrite 还可以在谷歌扩展程序中安装。

另外,Mutt Shumer 高中时期就创立了 Visos,致力于开发用于医疗用途的下一代虚拟现实软件。

还创立了 FURI,这是一家旨在通过创造高性能产品并以公平的价格销售它们来颠覆体育用品行业的公司。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

虽然有 Meta 支持,但目前打开试玩,还是:暂时无法访问。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

感兴趣的童鞋可以先码住了~

https://reflection-playground-production.up.railway.app/

参考链接:

[ 1 ] https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[ 2 ] https://x.com/mattshumer_/status/1831767014341538166

[ 3 ] https://x.com/polynoamial/status/1831798985528635806

[ 4 ] https://x.com/degeneratoor/status/1831809610451448196

[ 5 ] https://x.com/kimmonismus/status/1831772661296345333

以上就是开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/7832.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月5日 23:53:56
下一篇 2025年11月6日 00:22:25

相关推荐

  • 怎样用免费工具美化PPT_免费美化PPT的实用方法分享

    利用KIMI智能助手可免费将PPT美化为科技感风格,但需核对文字准确性;2. 天工AI擅长优化内容结构,提升逻辑性,适合高质量内容需求;3. SlidesAI支持语音输入与自动排版,操作便捷,利于紧急场景;4. Prezo提供多种模板,自动生成图文并茂幻灯片,适合学生与初创团队。 如果您有一份内容完…

    2025年12月6日 软件教程
    000
  • 助力工业转型升级金士顿工博会大放异彩

    在刚刚落幕的第二十五届中国国际工业博览会(简称“工博会”)上,参会嘉宾或满载而归,或回味无穷,但无一例外地达成了一项共识——人工智能正深度赋能新型工业化,中国制造业正从“制造”迈向“智造”,并在转型升级之路上取得了令人瞩目的成就。 工业变革的核心在于技术架构的重塑与关键技术的支撑。当现代工业逐步演进…

    2025年12月6日 行业动态
    000
  • 英特尔Q3财报:终于扭亏为盈 净利润41亿美元

    当地时间23日,美国芯片巨头英特尔发布了2025年第三季度财报,宣布公司成功实现盈利,终结了连续六个季度的亏损局面。这是英特尔在美国政府注资后发布的首份季度财报,营收和净利润双双超出市场预期,净利润高达41亿美元,与去年同期166亿美元的净亏损形成鲜明对比。受此利好消息影响,英特尔美股盘后股价大涨约…

    2025年12月6日 行业动态
    000
  • 谷歌浏览器标签页分组颜色怎么修改_谷歌浏览器标签分组个性化设置指南

    可通过右键菜单、拖拽建组或扩展程序修改谷歌浏览器标签分组颜色。首先右键分组圆点选新颜色;其次拖动标签创建分组时选择配色;最后可用“Tab Modifier”等扩展按规则自动着色。 如果您在使用谷歌浏览器时创建了标签页分组,但希望调整其颜色以便更好地区分不同任务或项目,则可以通过内置功能直接修改。以下…

    2025年12月6日 电脑教程
    000
  • 谷歌浏览器如何将扩展程序固定到工具栏_谷歌浏览器扩展图标固定操作方法

    首先进入扩展管理页面,点击浏览器右上角三点菜单选择“扩展程序”,找到目标扩展并开启“在工具栏中显示按钮”;也可通过工具栏拼图图标快速启用,点击扩展下方“在工具栏中显示”完成固定;最后可拖动图标调整顺序或关闭显示开关隐藏不常用图标。 如果您在使用谷歌浏览器时希望快速访问常用扩展程序,但发现图标无法直接…

    2025年12月6日 电脑教程
    000
  • 谷歌浏览器如何将所有打开的标签页都加入书签_谷歌浏览器批量保存标签页方法

    可通过谷歌浏览器内置功能或扩展程序一次性保存多个标签页。首先点击右上角三点菜单,选择“书签”中的“将所有标签另存为书签”,设置名称与位置后保存;也可通过快捷键Ctrl+Shift+O打开书签管理器,创建新文件夹并拖拽选中标签进行批量归档;此外,安装如“Session Buddy”等扩展程序可实现更灵…

    2025年12月6日 电脑教程
    000
  • 谷歌浏览器清除浏览数据按钮无反应怎么办

    先重启浏览器或电脑,检查是否因进程卡顿导致;再通过无痕模式排查扩展干扰,禁用扩展逐一排查;若仍无效,使用Ctrl+Shift+Delete快捷键调出清除窗口,或手动删除缓存文件夹;最后可重置浏览器设置恢复默认。 谷歌浏览器的“清除浏览数据”按钮点击后没反应,确实挺让人头疼。这通常不是单一原因造成的,…

    2025年12月6日 电脑教程
    000
  • 谷歌浏览器怎么安装离线的CRX扩展文件_谷歌浏览器离线插件安装教程

    首先通过开发者模式拖拽CRX文件安装扩展,若失败则重命名CRX为ZIP并解压后加载已解压扩展,必要时启用chrome://flags中的“Extensions on chrome:// URLs”标志以解除限制。 如果您需要在无法连接互联网或官方应用商店受限的环境下为浏览器添加功能,则可以通过本地安…

    2025年12月6日 电脑教程
    000
  • 谷歌浏览器怎么恢复被意外关闭的窗口_谷歌浏览器窗口恢复方法

    使用 Ctrl + Shift + T 可逐个恢复关闭的标签页;2. 通过历史记录中的“最近关闭的窗口”可恢复完整会话;3. 新标签页底部的“最近关闭的标签页”区域支持点击恢复;4. 右键标签栏可快速重新打开最后关闭的标签页;5. 在设置中启用“继续上次会话”可实现启动时自动恢复。 如果您在使用谷歌…

    2025年12月6日 电脑教程
    000
  • 蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王

    ai 能不能真正“动脑子”?这个问题有了新答案。 蚂蚁开源团队推出的 Ring-1T 模型,为这个长期存在的疑问提供了最具说服力的实证。不同于以往依赖海量数据“记忆”答案的语言模型,Ring-1T 试图让 AI 在复杂问题中真正“推理”出答案。 它通过强化学习与多阶段推理机制的结合,使模型能够在反馈…

    2025年12月6日 科技
    000
  • AIGC免费检测入口 知网官网查重直达链接

    知网个人查重需付费,官方入口为https://cx.cnki.net,支持查重及AIGC检测,费用1.5元/千字符,登录官网上传文档并支付即可获取报告。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 知网官方目前不提供完全免费的AIGC检测…

    2025年12月6日 科技
    000
  • 谷歌浏览器怎么强制刷新并忽略缓存_谷歌浏览器强制刷新快捷操作方法

    首先使用快捷键强制刷新可解决页面缓存问题,Windows系统按Ctrl+Shift+R,Mac系统用Command+Shift+R;也可通过F12打开开发者工具,在Network选项卡勾选Disable cache;还可右键刷新按钮选择Empty Cache and Hard Reload;最后可通…

    2025年12月6日 电脑教程
    000
  • 突然就“推理 Agent 元年”了,再聊 AI Chat 与 AI Agent

    今年 3 月份,我们还在以为 ai agent 的新纪元需要等到“泛 agi”,依靠大模型自身的能力和与之相辅相成的一系列技术的发展,诸如 rag、调用链等,去将大模型的能力更深入地“外置”给 agent 单元体。 然而到了下半年,随着大模型自身推理能力的爆发,以及生态中 MCP、ACP、A2A、上…

    2025年12月6日 行业动态
    000
  • 《最终幻想7》重制版三部曲制作人:创作者应努力做出比AI更好的游戏!

    《最终幻想7重制版》系列的导演滨口直树近日在接受国外媒体采访时,就生成式人工智能(AI)在游戏制作中的角色发表了看法。他明确表示,自己不会在创作过程中依赖AI,并强调人类创作者应始终掌握创意主导权。 尽管目前史克威尔艾尼克斯尚未出台关于AI使用的正式规范,滨口直树仍坚定地表示,在他负责的项目中,AI…

    2025年12月6日 行业动态
    000
  • AI推文助手如何制作行业白皮书 AI推文助手的专业报告生成

    首先明确白皮书主题与受众,确定行业领域及读者特征,并输入关键词引导AI生成;接着构建包含执行摘要、市场背景等模块的结构化框架,合理分配字数比例并分段指令生成;随后提供权威数据来源与可视化提示,增强内容可信度;再通过设定语言风格与专业术语表,提升文本专业性;最后采用分章节生成与人工校验相结合的方式,确…

    2025年12月6日 科技
    000
  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 京东怎么看商品价格走势?价格波动的原因是什么?五大核心原因详解!

    在京东购物时,你是否注意到同一件商品今天的价格与昨天大不相同?从智能手机到家用电器,从日常用品到高端奢侈品,京东平台上的价格变动无时无刻不在影响着消费者的购买决策。这种波动不仅反映了商家灵活的定价策略,也揭示了市场供需关系的实时变化。依托大数据与人工智能技术,京东商家能够迅速响应市场动向调整售价。而…

    2025年12月5日
    000
  • 为什么谷歌浏览器扩展程序无法启用?

    用户在使用谷歌浏览器时,可能会遇到某些扩展程序安装后无法启用或被自动禁用的情况,点击启用按钮也毫无反应。这一问题可能源于多种因素,包括扩展文件损坏、设置冲突或浏览器配置文件异常。本文将分析这些常见原因,并提供一系列排查步骤,帮助您解决扩展程序无法启用的问题,让您顺利使用所需的功能。 重新安装扩展程序…

    2025年12月5日
    000
  • 谷歌浏览器如何关闭后台运行进程?

    一些用户可能会发现,即使关闭了所有谷歌浏览器窗口,其进程依然在系统后台运行,这会持续占用一定的内存和处理器资源。这种情况通常是因为浏览器默认开启了后台应用运行模式,以支持通知和应用的快速启动。本文将指导您如何通过修改浏览器设置来彻底关闭后台运行进程,并介绍如何使用浏览器自带的任务管理器来处理当前运行…

    2025年12月5日
    000
  • 谷歌浏览器如何截图网页?

    当需要截取网页内容时,许多用户会选择使用系统自带的截图工具或安装第三方扩展程序。实际上,谷歌浏览器内置了一个功能强大的截图工具,它隐藏在开发者工具中,不仅可以截取当前可见区域,还能轻松实现对整个网页的滚动长截图。本文将详细介绍如何启用并使用这一原生功能,让您无需额外安装任何软件即可完成各种网页截图需…

    2025年12月5日
    000

发表回复

登录后才能评论
关注微信