刚刚，开源大模型的新王诞生了：超越GPT-4o，模型还能自动纠错

程序猿 • 2025年11月26日 14:04:58 • 用户投稿 • 阅读 1

快速更迭的开源大模型领域，又出现了新王：Reflection 70B。

横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。

这个新模型 Reflection 70B，来自 AI 写作初创公司 HyperWrite。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

HyperWrite 公司的 CEO Matt Shumer 表示，Reflection-70B 现在是「世界上最顶级的开源 AI 模型」。

Reflection 70B 的底层模型建立在 Meta 的 Llama 3.1 70B Instruct 上，并使用原始的 Llama chat 格式，确保了与现有工具和 pipeline 的兼容性。

Reflection 70B 已在多个基准测试中经过严格测试，包括 MMLU 和 HumanEval。测试结果表明， Reflection 的表现始终优于 Meta 的 Llama 系列，并与 GPT-4o 等全球顶尖的商用模型展开了激烈竞争。

其中，它在 GSM8K 的得分甚至达到了 99.2%。要知道，GSM8k 中可能有有超过 1% 的被标为正确的答案实际上有错，也就是说，Reflection 70B 的得分几乎与满分无异。

值得注意的还有 Reflection 70B 的零样本推理能力。面对从未接触过的内容，Reflection 70B 的表现超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次样本测试中的得分。

Reflection 70B 特别适用于需要高精度的任务，它将推理分为不同的步骤以提高精度。该模型可通过 Hugging Face 下载，API 访问将于今天晚些时候通过 GPU 服务提供商 Hyperbolic Labs 提供。

Hugging Face：https://huggingface.co/mattshumer/Reflection-70B

试用网址：https://reflection-playground-production.up.railway.app/

假设训练有素

模型自动纠错

在通用能力之外，Reflection 70B 的亮点还包括「错误识别」和「错误纠正」。

一种名为「Reflection-Tuning」的技术，使得模型能够在最终确定回复之前，先检测自身推理的错误并纠正。

Reflection 70B 引入了几个用于推理和纠错的特殊 token，使用户能够以更结构化的方式与模型交互。在推理过程中，模型会在特殊标签内输出其推理，以便在检测到错误时进行实时纠正。

Playground 演示网站包含供用户使用的建议提示词，比如那些很经典的例子：询问 Reflection 70B 单词「Strawberry」中有多少个「r」，以及哪个数字更大（9.11 还是 9.9），这两个简单的问题曾经难倒过很多大模型。

Reflection 70B 在测试中显得有些迟缓，但最终 60 多秒后给出了正确的答案。

Reflection 70B 的发布只是 Reflection 系列的开端。与此同时，Reflection 405B 也在推出的路上了，预计下周上市。Shumer 表示，它的性能将远远超过目前的专有或闭源 LLM，例如目前全球领先的 OpenAI 的 GPT-4o。

Shumer 宣布，HyperWrite 正致力于将 Reflection 70B 模型集成到其主要的 AI 写作助手产品中。

Reflection 405B 有望超越当今市场上最顶尖的闭源模型。HyperWrite 将发布一份报告，详细介绍训练过程和基准，以及 Reflection 模型背后的创新之处。

两个人在几周内完成

归功于 Glaive 的合成数据

Shumer 表示完成 Reflection 70B 只花了三周，团队只有他和另一位 AI 创业公司的创始人 Sahil Chaudhary 两个人。

在这么短的时间内做出效果如此好的模型，Shumer 称，都要拜 Sahil 的公司 Glaive 所赐。Glaive 是一家专门为特定需求构建数据集的初创公司。Shumer 在 X 平台上反复 que 这一点：「联系了 Sahil 之后，训练数据几小时内就生成好了。」他还亲自站台安利：「如果你在训练 AI 模型，一定要试试 Glaive 提供的服务。」

Glaive 专注于解决 AI 开发中最大的瓶颈之一：高质量、任务特定数据的可用性。在去年获得了一轮 350 万美元的种子轮融资。

Sahil Chaudhary

小型、更专业化的语言模型在使用 Glaive 提供的服务后，能够更快地完成训练。已经有一些小模型使用该公司已经证明了 Glaive 的能力，例如一个 3B 参数模型在 HumanEval 等任务上的表现超过了许多参数规模更大的开源模型。

火得措手不及

GPU 不够用了

Reflection 70B 一经发布，就火了，跑去试用的人太多，模型已经反应不过来了。

本来可以在线试用 Reflection 70B，但现在和它聊天反应很慢。

爱派AiPy

融合LLM与Python生态的开源AI智能体

1 查看详情

但是根据手快的网友发来的测评，Reflection 70B 也确实没辜负六个基础测试集里有四个都打败了 Claude 3.5 Sonnet 的战绩。

比如，它是首个能想明白这道缠绕不清的逻辑题的大模型。

提示词：有人在某地杀了 Agatha。Agatha、管家和 Charles 住在此地，并且是那里唯一的居民。杀手恨他的目标，并且比受害者穷。Charles 不恨 Agatha 恨的任何人。Agatha 除了管家之外恨所有人。管家恨所有不如 Aunt Agatha 富有的人。管家恨所有 Agatha 恨的人。没有人恨所有人。谁杀了 Agatha？

向它提问：「柏林的魏森湖地区当地人通常在哪里聚会？当地有哪些景点？」。对于这些本地人才知道的答案，其他模型虽然也能给出一些正确的回复，但是总会冒出一些在柏林之外的地点。Reflection 70B 是第一个能正确地说出主要地点，并且没有幻觉的模型。

Reflection-70B 的编码能力也得到了认证。有网友在 ProLLM 的编码辅助任务中对 Reflection-70B 进行了基准测试。它确实是最好的开源模型之一，击败了 Llama-3.1 405B。

不过，爆火的同时，由于 Reflection 70B 的底层模型采用了 Meta 的 Llama 3.1 70B Instruct，这也引发了一些争议。

有网友认为：「Reflection 70B 只是一种元提示（Meta-Prompting）的进步，似乎不能算是一种创新。」

但也有人对此提出反对，认为「利用思维链和让大模型说出自己的工作流程」这种方法能让大模型更好地模拟人类思考的过程。

「万一 Shumer 的方法 Reflection-tuning，就是 OpenAI 的 Strawberry 的方法呢？」

团队介绍

乍一看，Reflection 70B 似乎是横空出世，HyperWrite 的知名度并不高。但其实 Shumer 已是 AI 领域的创业老将了：2020 年，他与就 Jason Kuperberg 共同创立了 Otherside AI。

从左至右分别为 Otherside AI 的联合创始人：Matt Shumer, Miles Feldstein 与 Jason Kuperberg。

Otherside AI 凭借其当家产品 HyperWrite 收获了一波流量。HyperWrite 最初是一款根据要点撰写邮件和消息的 Chrome 插件。后来，它的功能越来越强大，拓展出了起草文章、总结文本等功能。截至 2023 年 11 月，HyperWrite 拥有两百万用户。随着两位联合创始人登上了福布斯年度「30 岁以下精英」榜单，Otherside AI 也正式更名为 HyperWrite。

在最新一轮融资中， HyperWrite 获得了 280 万美元的投资。在这笔资金的加持下，HyperWrite 引入了 AI 驱动功能，升级成了可以从网页浏览器自动完成预定航班、在 LinkedIn 上筛简历的智能管家。

HyperWrite 在线帮你订达美乐披萨的外卖。

参考链接：https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/

以上就是刚刚，开源大模型的新王诞生了：超越GPT-4o，模型还能自动纠错的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/790672.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Windows 11升级：微软推出经济实惠的Windows 365消费者版

上一篇 2025年11月26日 14:04:57

苹果12怎么开启volte功能_苹果12开启volte功能教程

下一篇 2025年11月26日 14:05:05

好文分享

表单中的AI助手怎么集成？如何添加智能填写建议？

表单中添加ai助手的核心是通过前后端协同实现智能填写建议，具体需从后端智能服务构建、前端交互逻辑、性能优化及复杂场景处理等方面入手。首先应根据需求选择合适的ai能力：若仅需关键词匹配，可采用轻量级规则引擎或本地模型；若需语义理解，则调用大型语言模型（llm）api如gpt、文心一言等更为合适。后端需…

程序猿
2025年12月22日
1000
好文分享

如何将兰链用于AI工作流程自动化

引言在飞速发展的AI领域，自动化是提升效率和可扩展性的关键。LangChain是一个开源框架，它提供强大的工具，用于将大型语言模型（LLM）集成到应用程序中。无论您是构建聊天机器人、数据处理管道还是智能决策系统，LangChain都能通过无缝连接不同的组件，实现AI工作流的自动化。本文将探讨如何利…

程序猿
2025年12月19日
0000
好文分享

Netflix，但更好

免责声明：本项目与Netflix无关，仅为技术实验。超越Netflix：构建更智能的电影推荐系统 Netflix作为流媒体巨头，拥有超过2亿用户和17000多部电影及电视节目，其推荐系统功不可没。该系统基于用户观看历史、相似节目、用户趋势和热门剧集等数据进行推荐。但如果我们能以更简便的方式复制这一…

程序猿
2025年12月19日
0000
好文分享

如何在双子座AI中生成结构化输出（JSON，YAML）

本文介绍如何使用google gemini api快速生成高质量的api文档，并演示如何灵活地输出json或yaml格式的结果。作者shrijith venkatrama，hexmos创始人，分享了liveapi的构建过程，这是一个通过代码生成api文档的强大工具。步骤1：获取Gemini API…

程序猿
2025年12月19日
0000
好文分享

节点＆＃s googlegenerativeai：将AI技术纳入JavaScript

概述近年来，人工智能技术飞速发展，开发者们迫切需要将AI融入应用之中。Google 的 googlegenerativeai Node.js 包为 JavaScript 开发者提供了一种便捷途径，利用 Gemini 模型构建强大的AI功能。该包也支持 Python 和 Go 版本，并提供 RES…

程序猿
2025年12月19日
1000
好文分享

人工智能工具市场

AIprophetic.com 网站文章列表： 2025年: 2025-01-24: 人工智能工具市场概览 (https://www.php.cn/link/1c52486ff0b2a44fbfefeb15d21f53ae)2025-01-24: ChatGPT 故障排除及替代方案 (https:/…

程序猿
2025年12月19日
0000
代码异味 – 非命令式函数名称

清晰的函数命名：避免歧义，提升代码可读性简而言之：含糊不清的函数名会隐藏其功能，令读者困惑。请使用具有描述性、面向动作的名称。问题函数用途不明确认知负担增加上下文误导可读性降低协作困难功能隐藏解决方案使用面向动作的动词使用描述性名称反映函数目的避免通用术语提供有意义的上下文明确表达单一职责…

程序猿
2025年12月19日 • 好文分享
0000
克劳德·十四行诗 vs GPT-4o

本案例研究对claude 3.5 sonnet和gpt-4o两种人工智能模型进行了深入比较，涵盖性能、定价和具体应用场景，并结合社区反馈、基准测试和实际使用经验。 Claude 3.5 Sonnet：智能且人性化 Claude 3.5 Sonnet是什么？ Claude 3.5 Sonnet是Ant…

程序猿
2025年12月19日 • 好文分享
0000
好文分享

轨道：太阳系之旅

去年十月，Masons团队参与了2024年NASA Space Apps Cairo黑客马拉松，并开发了一个令人振奋的项目——Orbit。Orbit是一个交互式3D网页应用，能够模拟太阳系并追踪近地天体（NEO）。它基于Next.js、Three.js和Golang后端构建，旨在提供宇宙的实时信息，…

程序猿
2025年12月19日
1000
好文分享

LightUp 简介：人工智能驱动的网络注释

在当今的数字世界中，我们不断受到信息的轰炸。无论是阅读文章、分析报告还是研究新主题，在选项卡之间跳转以收集背景信息或见解都会扰乱我们的流程和生产力。这就是 lightup 的用武之地：一款人工智能驱动的浏览器扩展程序，旨在帮助您保持专注、获得即时深度并直接在您正在查看的页面上扩展您的理解。问题您…

程序猿
2025年12月19日
1000
好文分享

自写 Lang 图状态

第一人工智能响应：输出：感谢您伸出援手，.我很乐意为您提供帮助，但我想确保我完全理解您的需求。您能否提供有关您正在寻找的内容的更多详细信息？您分享的信息越多，我就越能提供帮助！我很乐意尽我所能地帮助你。您想进一步探索某个特定领域吗？您的意见将帮助我根据您的具体需求定制我的帮助。我完全致力于让您的体…

程序猿
2025年12月19日
0000
好文分享

lambda演算的数学

你认为人类发现了还是发明了计算？我倾向于发现，因为图灵机和丘奇的 Lambda 微积分在 1936 年彼此独立地形式化，但两者也都具有普遍的表达能力（允许你计算一切）。非常不同，但 100% 等效。我不是在谈论硬件计算机的发明，由于电子电路及其晶体管，它可以采取各种形式并普遍实现这些概念。我在这…

程序猿
2025年12月19日
1000
好文分享

AI 星座：Nextjs 和 Gemini 的体验

大家好！我担任后端开发人员已有几年了，我一直在寻找新技术。最近，我对人工智能和占星学的结合产生了兴趣，并决定使用 Gemini API 创建一个星座预测生成器。项目：在这个项目中，我使用 Next.js 作为前端，这是学习新框架的绝佳机会。在后端，我使用 Next.js 和 GEMINI AP…

程序猿
2025年12月19日
0000
好文分享

XIIAI人工智能驱动的MVC框架

早上好！我很高兴分享我使用 Bolt.new 创建的新框架，该框架可自动生成 AI 驱动的 MVC 项目。想象一下使用 AI 生成的代码工具来构建整个 AI 自动化 MVC 生成的项目！在此演示中，您将看到创建任何应用程序是多么容易。您需要做的就是设置界面，连接模型响应的控制器，选择您的技术堆栈，…

程序猿
2025年12月19日
0000
好文分享

测试 LLM 应用程序：模拟 SDK 与直接 HTTP 请求中的不幸事件

介绍让我在这篇博客的前言中说，这个与我的其他博客不同，在这些博客中我能够逐步完成完成任务的步骤。相反，这更多地反映了我在尝试向我的项目 gimme_readme 添加测试时遇到的挑战，以及我在此过程中学到的关于测试 llm 支持的应用程序的知识。背景本周，我和我的开源开发同学的任务是向包含大型…

程序猿
2025年12月19日
0000
用户投稿

Gemini Pro API安全设置详解：如何有效避免内容阻断

gemini pro api在自定义安全设置后仍可能阻断回复。本文将详细解释为何直接设置字典无效，并提供正确的python代码示例，指导开发者通过导入`safetysetting`、`harmcategory`和`harmblockthreshold`等类，以对象列表形式配置安全阈值，从而有效管理内…

程序猿
2025年12月14日
0000
用户投稿

正确配置Gemini Pro API安全设置以避免内容屏蔽

本文旨在解决gemini pro api在使用自定义安全设置时仍遭遇内容屏蔽的问题。我们将深入探讨api安全设置的正确配置方法，指出常见误区，并提供基于`safetysetting`对象的标准实现方案，确保开发者能有效管理内容过滤，提升api调用的成功率。在使用Google Gemini Pro …

程序猿
2025年12月14日
0000
用户投稿

解决Gemini Pro API内容安全策略阻断回复的正确姿势

本文旨在解决Gemini Pro API在使用`safety_settings`时仍遭遇内容阻断的问题。核心在于，许多开发者错误地使用字典配置安全设置，而API实际期望的是一个`SafetySetting`对象列表。本教程将详细指导如何正确导入相关类并构建符合API要求的安全设置，确保即使是敏感内容…

程序猿
2025年12月14日
0000
用户投稿

基于Schema文件实现无数据库连接的SQL语句生成

本文探讨了在不直接连接数据库的情况下，如何利用数据库schema文件生成sql语句的方法。我们将重点介绍通过提供详细的数据库概览信息给大型语言模型（llm），实现基于schema的sql查询生成，从而避免实际数据库连接，提升安全性和灵活性。内容涵盖了如何准备schema信息以及其在llm驱动的sql…

程序猿
2025年12月14日
0000
用户投稿

如何优化ChromaDB检索响应的完整性

在使用Langchain结合ChromaDB构建基于文档的问答系统时，用户有时会遇到检索到的响应不完整的情况，尤其是在处理大型或复杂PDF文档时。这通常不是ChromaDB本身的问题，而是文档处理、检索策略或问答链配置不当导致的。本文将详细介绍如何通过优化文档分块、调整检索器参数以及理解问答链机制来…

程序猿
2025年12月14日
0000

发表回复

登录后才能评论

刚刚，开源大模型的新王诞生了：超越GPT-4o，模型还能自动纠错

关于作者

相关推荐

发表回复