40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果

模型竞赛,又杀出一匹黑马——

Inflection-2.5,由DeepMind联创Mustafa Suleyman的大模型初创公司打造。

只用40%的计算资源训练,表现就超过了GPT-4的九成,尤其擅长代码和数学。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果

而早期的Inflection模型,训练时只消耗了4%的计算资源,就达到了GPT-4表现的72%。

以Inflection模型为基础,该公司还推出了网页端对话机器人Pi,主打“高情商”和“个性化”,还支持中文。

自诞生以来,Pi的最高日活达到了100万,累计产生了40亿条消息,平均对话时长来到了33分钟。

而随着这次基础模型的升级,Pi也迎来了它的新版本。

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果图片

那么,Inflection,或者说Pi,表现到底有没有那么强,量子位进行了一番实测。

无需登录即可使用

打开Pi的页面,映入眼帘的是这样一个极简界面,而且还可以不用登录,直接点击Next。

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果图片

连续Next几次后,输入希望Pi称呼我们的方式。

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果图片

之后是选择声音和推荐话题,直接跳过就可以了,然后就进入正式的聊天界面了。

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果图片

简单测试发现,Pi支持中文对话,既然如此那就先把弱智吧Benchmark给安排上。

第一题,老鼠生病了可以吃老鼠药治好吗,Pi成功解答。

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果图片

再来一道“陷阱”题,这次依旧没有上当。

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果图片

两道问题过后,虽然没有出现什么戏剧性效果,但看起来对中文也是有一定的理解了。

接下来就重点看看官方宣称“尤其擅长”的数学和代码能力。

首先是一道涉及动态规划的编程题目。

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果图片

Pi给出的代码成功解决了这个问题,并且配有清晰的解释。

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果图片

接下来再提升一下难度看看,让其分析一个数字的阶乘中末尾有多少个0。

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果图片

Pi给出的代码不仅正确,而且简洁高效,运行速度超过了LeetCode上73.8%的用户。

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果图片

最后再来增加一下难度,以一道47.5%通过率的题目结束代码部分的测试。

银河易创 银河易创

一站式AIGC创作平台,集成GPT-3.5、GPT-4、文心一言等对话模型、Midjourney、DallE等绘画工具、AI音乐、AI视频和AI PPT等功能!

银河易创 52 查看详情 银河易创

40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果图片

看完代码,再来测测Pi的数学能力怎么样,让它做做关于导数的题目:

求出函数f(x)=x³+2x²-1的极值点

解答完全正确,而是十分详细。

当然要想数学好,逻辑思维是必不可少的,所以我们在常规的数学题之外,又用一道经典的题目考验了一下的Pi逻辑思维,结果还不错。

通过Pi的表现,可以看出其背后的Inflection-2.5模型的确可圈可点。

而从官方自己公布的测试数据来看,无论是综合能力还是各个子项,Inflection-2.5的表现都紧随GPT-4。

以数学和代码为例,Inflection-2.5在MATH、HumanEval等测试中都比1.0版本都有大幅飞跃。

在这些常规的数据集之外,Inflection还挑战了匈牙利高考数学试题和GRE物理测试,结果几乎与GPT-4打成平手。

更“刁钻”的,还有人专门用大模型难以理解的问题构建了一个BIG-Bench数据集,而Inflection-2.5挑战了其中的Hard子集,结果和GPT-4的差距不到一分。

那么,Inflection-2.5的背后,是怎样的一家公司呢?

DeepMind联创大模型创业

这家公司名叫Inflection AI,由DeepMind联创Mustafa Suleyman等人于2022年创立,目前共有70余人。

同样来自DeepMind的,还有资深研究员Karen Simonyan,现担任Inflection AI的首席科学家。

此外,LinkedIn联创Reid Hoffman也参与了Inflection AI的创立。

创立以来,Inflection AI已经获得了来自英伟达、微软、比尔盖茨等巨头的共计15亿美元的融资。

目前,基于Inflection的Pi还是免费的,但CEO Suleyman也表示,一直用爱发电不现实,长久地看以后还是要收费。

想要体验的朋友,可能要抓紧时间了~

传送门:https://pi.ai

以上就是40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/619932.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 06:04:32
下一篇 2025年11月11日 06:05:23

相关推荐

  • html的盒模型详解

    这次给大家带来html的盒模型详解,使用html盒模型的注意事项有哪些,下面就是实战案例,一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素: –生成该盒的元素是否设置了’width’或&#82…

    好文分享 2025年12月21日
    000
  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • AI 越聪明越不听话!新研究:最强推理模型指令遵循率仅 50%

    如果面前有两个 ai 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

    2025年12月3日 硬件教程
    200
  • 《梦幻西游》全新赛事祥瑞即将来袭,剪影图曝光

    《梦幻西游》电脑版全新赛事祥瑞曝光,11月将会和广大玩家正式亮相!你们猜猜这只祥瑞是以什么为原型做的设计,以及和梦幻接下来的什么活动有关 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻…

    2025年12月2日 行业动态
    000
  • 《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!

    《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队! 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!的详细内容,更多请关注…

    2025年12月2日
    000
  • 探究词表选择对语言模型训练的影响:一项具有突破性的研究

    语言模型受不同词表的影响有哪些?如何平衡这些影响? 在最近的一项实验中,研究者对16个语言模型进行了不同的语料预训练和微调。这次实验使用了NanoGPT,一种小规模的架构(基于GPT-2 SMALL),共训练了12个模型。NanoGPT的网络架构配置为:12个注意力头、12层transformer,…

    2025年12月2日 科技
    100
  • ICCV’23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶

    在法国巴黎举行的计算机视觉顶峰大会iccv 2023刚刚结束! 今年的最佳论文奖,简直是“神仙打架”。 例如,获得最佳论文奖的两篇论文中,就包括颠覆文生图AI领域的著作——ControlNet。 自从开源以来,ControlNet在GitHub上已经获得了24k个星。无论是对于扩散模型还是整个计算机…

    2025年12月2日 科技
    000
  • 谷歌:非等频采样时间序列表示学习新方法

    在时间序列问题中,有一种类型的时间序列不是等频采样的,即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究,但是在这种不规则采样的时间序列中研究比较少,并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别 今天介绍的这篇文章,在不规则采样的时间…

    2025年12月2日 科技
    000
  • 最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星

    如果你曾经与任何一款对话式 AI 机器人交流过,你一定会记得一些令人感到非常沮丧的时刻。比如,你在前一天的对话中提到的重要事项,被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文,就像为考试而临时抱佛脚的学生,稍加盘问就会「露出马脚」。 如果AI助手能够在聊天中根据上下文参考…

    2025年12月2日 科技
    000
  • 令人惊讶的时间冗余方法:降低视觉Transformer计算成本的新途径

    Transformer最初是为自然语言处理任务而设计的,但现在已经被广泛应用于视觉任务。视觉Transformer在多个视觉识别任务中展现出了出色的准确性,并在图像分类、视频分类和目标检测等任务中取得了当前最佳的表现 视觉 Transformer 的一大缺点是计算成本高。典型的卷积网络(CNN)处理…

    2025年12月2日 科技
    200
  • 努比亚推出自研星云大模型:编程性能国内排名第一

    7月23日消息,今天下午,努比亚举行努比亚ai+双旗舰新品发布会,推出自研的星云大模型。近年来,ai技术正值井喷式的爆发,努比亚定义了“al+”的产品战略和理念,联合ai大模型研发团队潜心钻研,重磅推出自研的星云大模型,提供了自然语言大模型、视觉大模型等一系列高度专业的ai大模型,模型能力行业遥遥领…

    2025年12月2日 行业动态
    000
  • 思维链如何释放语言模型的隐藏能力?最新理论研究揭示其背后奥秘

    大模型涌现中最神秘的现象之一是思维链提示(cot),尤其在解决数学推理和决策问题方面展现出惊人的效果。cot到底有多重要呢?它背后成功的机制是什么?本文中,北大的几位研究者证明了cot在实现大语言模型(llm)推理中是不可或缺的,并从理论和实验角度揭示了cot如何释放llm的巨大潜力。 最近的研究发…

    2025年12月2日 科技
    000
  • BAT方法:AAAI 2024首个多模态目标追踪通用双向适配器

    目标跟踪是计算机视觉的基础任务之一,近年来,单模态(RGB)目标跟踪取得了重大进展。然而,由于单一成像传感器的限制,我们需要引入多模态图像(如RGB、红外等)来弥补这一缺陷,以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息,增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟…

    2025年12月1日 科技
    100
  • 想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

    Sora 在 2024 年初的惊艳表现成为了新的标杆,激励着所有研究文生视频的人士争相追赶。每个研究者都怀着复现 Sora 成果的渴望,争分夺秒地努力着。 根据 OpenAI 披露的技术报告,Sora 的一个重要创新点是将视觉数据转换为 patch 的统一表示形式,并通过 Transformer 和…

    2025年12月1日 科技
    000
  • 微软6页论文爆火:三进制LLM,真香!

    这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的LLM,都将是1.58 bit的。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 具体而言,这项研究提出的方法叫做BitNet b1.58,可以说是从大语言模型“根儿”上的…

    2025年12月1日 科技
    000
  • 几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling

    在标准的UNet结构中,long skip connection上的scaling系数 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 一般为1。 然而,在一些著名的扩散模型工作中,比如Imagen, Score-based generati…

    2025年12月1日 科技
    000
  • 揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 引子:揭开扩散模型及其“脊梁骨”的神秘面纱 如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重…

    2025年12月1日 科技
    000
  • LLaMa 3或将推迟到7月发布,剑指GPT-4,从Gemini吸取教训

    过去的图像生成模型经常因为主要呈现白人形象而受到批评,而谷歌的 Gemini 模型则因为极端的矫枉过正而陷入困境。它的生成图像结果变得过分谨慎,与历史事实出现显著偏差,令用户感到惊讶。谷歌声称,该模型的谨慎程度超出了开发者的预期。这种谨慎不仅体现在生成的图像中,还表现在通常将一些提示视为敏感提示,进…

    2025年12月1日 科技
    000

发表回复

登录后才能评论
关注微信