Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

昨天一早,meta 了放出自家用了 20 万显卡集群训练出的 llama 4 系列模型,其中包括 llama 4 scout、llama 4 maverick 和 llama 4 behemoth。消息一出,直接引爆了大模型圈。

Meta 还特意强调,这些模型都经过了大量未标注的文本、图像和视频数据的训练,视觉理解能力已经到了 Next level,有种在大模型领域一骑绝尘的既视感。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

Meta GenAI 负责人 Ahmad Al-Dahle 也表示:“我们的开放系统将产出最好的小型、中型和即将出现的前沿大模型。”并附上了一张 Llama 4 的性能对比测试图。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

紧接着,在大模型竞技场中 Llama 4 Maverick 的排名直接跃升到第二名,成为了第 4 个突破 1400 分的大模型。在开放模型排行榜上更是超越了 DeepSeek,直接上桌坐“主座”。

“首次采用 MoE 架构”、“千万 token 上下文”…一时间 Llama 4 就被贴满了各种 Title。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

但在一片赞美和吹捧声中,很快就有心细的网友发现了不对劲。这位网友用头段时间在 ? 上很火的让模型直出几何程序的方式来测试 Llama 4,但最终的结果是在画六角形内含一个受重力影响球的集合图像时,Llama 4 试了 8 次也错了 8 次,而反观 DeepSeek R1 和 Gemini 2.5 pro 则是一次正确。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

也有网友表示对 Llama 4 的表现感到非常失望。按照以往惯例,更新了版本号的模型在性能上应该有很大的突破,而 Meta 憋了这么久才舍得放出来的 Llama 4 非但没有进步,在测试中的表现还不如一些现有的大模型。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

还有网友非常贴心的给出 Llama 4 系列的模型能力找了个参照物:“Llama 4 maverick 这个 402B 的大模型,大概跟 Qwen QwQ 32B 写代码水平一致,而 Llama 4 scout 则近似于 Grok2 或者 文心 4.5。”

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

Llama 4:超级刷榜选手

在官方给出的数据中,Llama 4 的能力妥妥碾压了一众大模型,但在网友们的实际测试中,Llama 4 却显得很拉跨,越测越觉得离谱的网友们不由得怀疑,扎克伯格是不是给自家模型偷偷刷榜了?

经过网友们的多方证实,最后发现,嘿!还真是刷的。

其实如果认真看 Ahmad Al-Dahle 发布的 Llama 性能对比测试图最下面一行的小字,你就会发现上面写着“Llama 4 Maverick 针对对话进行了优化”,而 Meta 其实早就给自己留了个“图片仅供参考,一切以实物为准”的心眼。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

除了破解 Meta 官方的字谜游戏外,网友们也带着 Llama 4 进出于各大测试榜单中。

他们先是把 Llama 4 拉到了著名的 code 测试榜单 Aider ployglot 中,最终的得分比 qwen-32B还低。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

在另一个代码评测榜单中,Llama 4 的成绩也只能排在中间位置。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

除此之外,网友们发现在 EQBench 测评基准的长文章写作榜上,Llama 4 系列也是直接垫底。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

卡拉OK视频制作 卡拉OK视频制作

卡拉OK视频制作,在几分钟内制作出你的卡拉OK视频

卡拉OK视频制作 178 查看详情 卡拉OK视频制作

而即使是最基础的翻译任务,网友们也表示 Llama 4 的表现也是比 3.3 的 70b 还要差得多,甚至还不如 Gemma 3 的 27B。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

混乱的 Meta

正在网友们风风火火测评 Llama 4 的真实成绩时,一则发布在海外的求职平台一亩三分地上的内容更是直接给Llama 4 的作弊传闻填了一把柴。

文中提到 Llama 4 的训练存在严重问题,并且内部模型的表现仍然未能达到开源 SOTA,甚至与之相差甚远,而 Llama 4 的高分也确实是领导层为了能够在各项指标上交差所做出的“努力”。而这个则消息的爆料者,很可能来自 Meta 公司内部。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

除此之外也有其他的 AI 从业者在线吐槽,表示“我们都被耍了,Llama 4 不过是一个早早被设计好的实验版本。”

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

还有前 Meta 员工站出来指出公司在产品研发方面存在巨大漏洞,并表示 Llama 系列模型的信息泄露问题其实从 Llama 1 就已经存在了。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

而在 Llama 4 发布的几天前,Meta AI 研究副总裁 Joelle Pineau 就在 Linkedin 发文称自己已经申请将在 5 月份离职,不由得让人们将这件事与 Llama 4 作弊刷榜的事情联系到一起。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

不少人疑惑,为什么一向崇尚“大力出奇迹”的 Meta 这次的翻车力度这么大,明明有钱、有卡、有数据,但模型创新能力依旧不足,还要靠作弊刷榜来找存在感?

一个坊间流传的观点是,Meta内部研究人员压力过大,因为他们需要做出成果,给公司一个好的交代,因此会求稳,更加偏向于更能做出成果的事情,而真正重要的内容,比如基础设施的迭代、新算法的实验,这些需要大量时间去做出成果的内容,却往往没有人愿意去做。

这也导致了 Meta 很难在大模型市场上继续做出向 DeepSeek R1 这样轰动整个 AI 领域的东西,而还没有发布的超大杯 2T 参数模型也应证着这个观点:Meta 其实还没有更好的想法。

反观以研究为导向的 DeepSeek,其实一直在探索新的架构。DeepSeek 团队先是提出了强化学习里的神奇算法 GRPO,紧接着在 DeepSeek v2 时提出的 MLA 原理直接沿用到了 DeepSeek V3 和 DeepSeek R1 版本上,后来发布的全新注意力架构 NSA 更是实现了超高速长上下文训练与推理。

回到 Llama 4 这边,根据AI科技评论的了解,对大模型架构有研究的专业人士认为,Llama 4 非常缺乏技术创新,比如说,在后训练阶段还在死守DPO。而此前的一系列理论和实验都表明 DPO 的泛化能力,“比PPO差得远”。PPO在实际使用中需要调的细节很多,不易上手。在DeepSeek提出GRPO以后,越来越多的研究者开始使用GRPO及其改版。 Meta 还继续坚持用着 DPO 而不选择创新,这么来看 Llama 4 做成如此也属于意料之中。

常人没法用,专家用不着

而最让人失望的是,Llama 4 系列的模型都无法放入家用电脑,并且 Llama 4 除了一直在宣传的 10M 上下窗口外,貌似已经没有任何优势,而这一点对于大多数人来说其实并不是必需的内容。

除此之外,GPT 4o, Gemini 2.5 Pro 这些拥有生图能力的模型型号已经正式推出,而 Grok3、Gemini 2 Flash 等多模态模型也已经开始广泛开放,这也意味着更多的人没有再用 Llama 4 的理由,或者说,Llama 4 本身没有太强的市场竞争力。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

反观这次 Llama 4 的翻车事件,不难看出其实 Llama 4 系列模型很可能是 Meta 在追赶大模型潮流的战略布局中的一枚重要棋子,但却因为太过于“急功近利”而选择作弊,导致直接失去了社区的支持,进而失去了自身的竞争优势。

并且 Llama 2、Llama 3 的时代已经过去,选择 Llama 作为基座的开源模型只会越来越少,PHP中文网(公众号:PHP中文网)认为对于 Meta 来说,与其选择作弊刷榜博眼球,不如想想如何创新,如何提高社区适用度,能不能追上最前端的技术暂且放一边,最重要的是先把口碑先赚回来。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

以上就是Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/263295.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月4日 09:45:38
下一篇 2025年11月4日 09:47:53

相关推荐

  • 使用Trie实现固定长度字节数组的高效前缀搜索

    本文探讨了在大量固定长度字节数组中高效查找给定前缀匹配项的方法。针对传统线性搜索的性能瓶颈,提出了采用trie(前缀树)数据结构作为解决方案。trie能够通过将字节序列映射到树路径的方式,显著优化前缀查找操作,实现快速插入与检索,并有效处理单次、多次或无匹配结果的场景。 问题背景与挑战 在实际应用中…

    2025年12月16日
    000
  • 解析Go HTTP路由中正则表达式的常见误区与正确实践

    本文探讨了Go语言HTTP路由中一个常见的正则表达式误用问题。当意图匹配文件扩展名时,将分组模式 (css|…) 错误地置于字符集 [] 内,导致正则表达式将其解释为匹配单个字符而非一组可选字符串。文章详细分析了这一误区,提供了正确的正则表达式 .(css|jpg|…),并演…

    2025年12月16日
    000
  • 输出格式要求:如何判断 Go 结构体是否被初始化

    本文探讨了在 Go 语言中如何判断结构体字段是否被显式赋值的问题。由于 Go 语言的特性,无法直接区分字段的零值是用户显式赋值还是默认初始化。文章提出了使用指针类型来间接判断字段是否被赋值的方法,并讨论了这种方法的优缺点和适用场景。 在 Go 语言中,经常会遇到需要判断结构体中的字段是否被显式赋值的…

    2025年12月16日
    000
  • Golang 文件上传下载并发控制示例

    使用带缓冲channel控制并发,通过信号量限制最大goroutine数,避免资源耗尽。示例中以5个并发为限,封装ConcurrencyLimiter实现上传下载任务的可控执行,确保高并发下系统稳定。 在使用 Golang 实现文件上传和下载服务时,面对高并发场景,如果不加以控制,可能会导致内存暴涨…

    2025年12月16日
    000
  • Go语言堆栈跟踪中负数行号的解析与应对

    在go语言开发中,遇到堆栈跟踪中的负数行号是一种异常现象,通常并非应用程序逻辑错误,而是go编译器、链接器或运行时在生成调试信息时出现问题的表现。本文将深入探讨这种现象的成因,特别是结合go社区中已知的相关问题(如go issue 5243),并提供当开发者遇到此类问题时的诊断思路和应对策略。 理解…

    2025年12月16日
    000
  • 深入理解 Go 语言中 switch 语句的性能考量

    go 语言的 `switch` 语句因其高度灵活性,常被用于替代复杂的 `if-else` 结构。然而,其性能优势并非总是显而易见。本文将深入探讨 go `switch` 与 `if-else` 在性能上的异同,指出仅当 `switch` 的 `case` 表达式为整型常量时,编译器才可能进行跳表优…

    2025年12月16日
    000
  • 使用Go语言可靠地删除Unix域套接字

    本文介绍了在Go语言中如何可靠地删除Unix域套接字,以避免”地址已在使用”错误。通过信号处理机制,确保在程序正常退出或接收到中断信号时,都能正确地关闭监听器并删除套接字文件,从而保证程序的稳定性和可重复启动性。 在使用Unix域套接字进行进程间通信时,一个常见的问题是套接字…

    2025年12月16日
    000
  • 如何在Go语言中定义函数参数类型

    本文旨在帮助Go语言初学者理解如何在函数定义中正确声明参数类型,并通过示例代码演示了定义整型参数的两种常用方法。同时,强调了返回值类型声明的重要性,并推荐了官方教程以供深入学习。 在Go语言中,函数参数的类型定义是至关重要的,它确保了函数能够接收正确类型的数据,并进行相应的处理。类型声明不正确会导致…

    2025年12月16日
    000
  • 高效跨平台数据序列化与TCP传输策略

    本文探讨了在go服务器与ios应用之间通过tcp高效传输数据的最佳实践。针对protocol buffers可能遇到的兼容性问题,文章评估了多种跨平台序列化格式,重点比较了json和messagepack在可读性、性能及跨平台支持方面的优劣。强调选择最适合项目需求和开发者舒适度的方案,尤其推荐mes…

    2025年12月16日
    000
  • 如何在Golang中通过反射调用方法

    在Golang中可通过reflect包动态调用结构体方法,需确保方法导出、接收者类型匹配,并使用MethodByName获取方法后调用。 在Golang中,可以通过反射(reflect包)动态调用结构体的方法。这在处理未知类型或需要根据名称调用方法时非常有用,比如实现插件系统、路由分发或配置化调用。…

    2025年12月16日
    000
  • Go text/template 教程:在 range 循环中访问根上下文数据

    本教程旨在解决 Go 语言 `text/template` 包中,当使用 `range` 循环迭代数据时,如何访问循环外部(即模板根上下文)的数据。我们将介绍如何利用特殊的 `$` 变量,在循环内部轻松引用模板最初接收到的数据结构,从而实现灵活的数据组合和展示。 Go 语言的 text/templa…

    2025年12月16日
    000
  • Go程序访问GAE管理员受限URL:OAuth2认证与安全实践

    本文详细介绍了如何使用%ignore_a_1%程序通过oauth2协议访问google app engine (gae) 上受管理员权限限制的url。我们将探讨oauth2凭证的获取、go语言中`goauth2`库的应用,并强调了在程序化访问中至关重要的安全实践,包括始终使用https以及设置安全的…

    2025年12月16日
    000
  • 解决Go语言中mmap系统调用返回零容量的权限问题

    本文旨在探讨Go语言中syscall.Mmap调用返回零容量的常见问题,并提供解决方案。核心原因在于文件打开权限与mmap映射权限不匹配,os.Open默认只读,而mmap请求读写权限导致权限拒绝。教程强调了正确的文件打开方式(使用os.OpenFile)和错误处理的重要性,并提供了示例代码以确保m…

    2025年12月16日
    000
  • Golang如何打印指针的地址和值

    打印指针变量的地址用&ptr,2. 打印指针指向的值用*ptr,3. 打印指针存储的地址直接输出ptr或使用%+p格式,三者区分清晰。 在Golang中,打印指针的地址和值是理解指针行为的关键。我们可以通过fmt包中的Println或Printf来实现。 打印指针的地址 指针变量本身也有内存…

    2025年12月16日
    000
  • 在 C++ 应用中加载 Go 共享库作为插件

    本文探讨了在 C++ 应用中加载 Go 插件的方案。由于 Go 语言本身对动态链接的支持有限,我们将介绍一种替代方法:通过 Cgo 技术,将 C 代码嵌入到 Go 代码中,并利用一个简单的 C 桩程序作为入口,从而实现在 C++ 中调用 Go 函数的目的。这种方法允许 C++ 程序间接利用 Go 语…

    2025年12月16日
    000
  • Golang HTTP GET 请求超时机制详解与实践

    本教程详细介绍了如何在go语言中为`http.get()`请求设置自定义超时。通过配置`http.client`的`timeout`字段,开发者可以有效避免因默认长时间等待而导致的程序性能瓶颈,确保http请求在指定时间内完成或返回超时错误,从而提升应用的健壮性和响应速度。 引言:理解HTTP请求超…

    2025年12月16日
    000
  • 深入理解Go语言包级别变量的初始化顺序与依赖分析

    go语言中包级别变量的初始化顺序并非严格按照声明顺序,而是由复杂的依赖分析决定。编译器会识别变量间的词法引用依赖,确保被依赖的变量先于依赖它的变量完成初始化。如果存在初始化循环依赖,则会导致编译错误。理解这一机制对于编写健壮且可预测的go程序至关重要,尤其是在处理包级别副作用时。 Go语言包级别变量…

    2025年12月16日
    000
  • Golang:高效地通过Channel传输压缩字节流

    本教程深入探讨在Go语言中如何高效地通过Channel传输压缩字节流。我们将摒弃低效的单字节传输,转而采用字节切片([]byte)进行数据块传输,并通过自定义实现io.Writer接口的ChanWriter类型,结合Goroutine实现异步压缩与并发安全的数据流传输。文章将提供详细的代码示例和最佳…

    2025年12月16日
    000
  • Go 语言 JSON 编码:结构体使用指针比使用拷贝更慢的原因

    本文探讨了在 Go 语言中使用 `encoding/json` 包进行 JSON 编码时,结构体字段使用指针类型反而比使用值类型更慢的现象。通过基准测试代码,我们发现对于包含字符串字段的结构体,使用指针会增加反射和指针追踪的开销,从而抵消了避免拷贝带来的潜在优势。尤其是在字符串较短的情况下,这种开销…

    2025年12月16日
    000
  • 使用 Golang 创建硬链接

    本文介绍了在 Golang 中创建硬链接的方法,尤其是在 Windows 操作系统上的实现。通过 `os.Link()` 函数,可以方便地创建硬链接。同时,文章也提醒了 Windows 文件系统对硬链接的支持情况,以及提供了完整的示例代码,帮助开发者快速上手。 在 Golang 中创建硬链接,可以使…

    2025年12月16日
    000

发表回复

登录后才能评论
关注微信