谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

谷歌deepmind最近发现的一项新结果在transformer领域引起了广泛争议:

它的泛化能力,无法扩展到训练数据以外的内容。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

目前这一结论还没有进一步得到验证,但已经惊动了一众大佬,比如Keras之父Francois Chollet表示,如果消息为真,将成为大模型界的一件大事。

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

谷歌Transformer是今天大模型背后的基础架构,我们所熟悉的GPT里的“T”指的就是它。

一系列大模型表现出强大的上下文学习能力,可以快速学习示例并完成新的任务。

但现在,同样来自Google的研究人员似乎指出了它的致命缺陷——超出训练数据也就是人类已有知识之外,全都无能为力。

一时间,不少从业者认为AGI再次变得遥不可及。

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

有些网友指出,论文中还有一些被忽视的关键细节,例如实验只涉及到了GPT-2的规模,训练数据也不够丰富

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

随着时间的推移,更多认真研究了这篇论文的网友则指出,研究结论本身没什么问题,但人们却基于此做出过度的解读。

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

在论文引发网友热议后,其中一位作者也公开进行了两点澄清:

首先,实验中采用的是简单的Transformer,既不是“大”模型,也不是语言模型;

其次,模型是可以学习新任务的,只是无法泛化到新类型的任务

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

此后,又有网友在Colab中重复了这一实验,却得到了完全不同的结果。

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

那么,我们就先来看看这篇论文,还有提出不同结果的Samuel,到底都说了什么。

新函数几乎无法预测

在这个实验中,作者使用基于Jax的机器学习框架训练了一个规模接近GPT-2的Transformer模型,该模型仅包含解码器部分

这个模型包含12层,8个注意力头,嵌入空间维度为256,参数量约为950万

为了测试它的泛化能力,作者选择了函数作为测试对象。他们将线性函数和正弦函数作为训练数据输入模型中

这两种函数对于此时的模型来说是已知,预测的结果自然也很好,但当研究者把线性函数和正弦函数进行了凸性组合时,问题就出现了。

凸性组合并没有那么神秘,作者构建出了形如f(x)=a·kx+(1-a)sin(x)的函数,在我们看来不过是两个函数按比例简单相加。

我们之所以会这样认为是因为我们的大脑具备这种泛化能力,而大规模模型则不同

对于只学过线性和正弦函数的模型来说,简单的相加看起来很新颖

针对这种新函数,Transformer的预测几乎没有任何准确性(见图4c),因此作者认为该模型在函数上缺乏泛化能力

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

为了进一步验证自己的结论,作者调整了线性或正弦函数的权重,但即使这样Transformer的预测表现也没有显著的变化。

豆包大模型 豆包大模型

字节跳动自主研发的一系列大型语言模型

豆包大模型 834 查看详情 豆包大模型

只有一点例外——当其中一项的权重接近1时,模型的预测结果和实际就比较吻合了。

如果权重为1,则表示陌生的新函数直接变成了训练时已经见过的函数,这种数据对于模型的泛化能力显然没有什么帮助

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

进一步实验还显示,Transformer不仅对于函数的种类十分敏感,甚至同种函数也可能变成陌生条件。

研究人员发现,在改变正弦函数的频率时,即使是简单的函数模型,预测结果也会出现线束变化

只有当频率接近训练数据中的函数时,模型才能给出比较准确的预测,当频率过高或过低时,预测结果出现了严重的偏差……

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

据此,作者认为,条件只要稍微有点不一样,大模型就不知道怎么做了,这不就是说明泛化能力差吗?

作者在文中也自述了研究中存在的一些局限性,如何将函数数据上的观察应用到token化的自然语言问题上。

团队也在语言模型上尝试了相似的试验但遇到一些障碍,如何适当定义任务族(相当于这里的函数种类)、凸组合等还有待解决。

然而,萨缪尔的模型规模较小,只有4层,在Colab上训练5分钟后就可以适用于线性与正弦函数的组合

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

不能泛化又如何

根据整篇文章的综合内容来看,Quora CEO在这篇文章中的结论非常狭隘,只有在许多假设成立的情况下才能成立

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

斯隆奖得主、UCLA教授顾全全说,这篇论文本身的结论不存在争议,但不应该被过度解读。

根据之前的研究,Transformer模型只有在面对与预训练数据明显不同的内容时才无法泛化。事实上,大型模型的泛化能力通常是通过任务的多样性和复杂性来评估的

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

如果仔细追究Transformer的泛化能力,恐怕要让子弹再飞一会儿了。

但是,就算真的缺乏泛化能力,又能怎么样呢?

英伟达AI科学家Jim Fan就说,这种现象其实没啥奇怪的,因为Transformer本来就不是万金油,大模型表现得好,是因为训练数据刚好是我们关心的内容

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

Jim进一步补充道,这就好像是在说,用一千亿张猫狗的照片训练视觉模型,接着让模型去识别飞机,然后发现,哇,居然真的不认识诶。

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

人类在面对一些未知任务时,不仅仅是大规模模型,也未必能够找到解决方案。这是否也暗示了人类缺乏泛化能力呢?

谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟

因此,在以目标为导向的过程中,不论是大型模型还是人类,最终的目的都是解决问题,而泛化只是一种手段

将这个表达方式换成中文,既然泛化能力不足,那就将其训练到没有训练样本之外的数据为止

那么,对于这项研究,你有什么看法呢?

论文地址:https://arxiv.org/abs/2311.00871

以上就是谷歌大模型研究引发激烈争议:训练数据之外的泛化能力受到质疑,网友表示AGI奇点或被推迟的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/465716.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 05:19:45
下一篇 2025年11月8日 05:24:52

相关推荐

  • Go语言crypto库在生产环境TLS客户端中的安全性评估

    本文深入探讨了Go语言内置`crypto`库作为TLS客户端在生产环境中的安全性。根据Go团队的官方观点,该库在发布初期未经过外部安全审查,且存在已知的侧信道攻击风险,例如RSA和部分椭圆曲线操作非恒定时间,以及潜在的Lucky13攻击。因此,在对安全性有极高要求的生产环境中,其适用性需谨慎评估。文…

    2025年12月16日
    000
  • Go语言:早期阶段的项目适用性分析

    本文探讨了Go语言在其早期实验阶段的项目适用性。鉴于其实现和生态系统尚不成熟,Go语言当时更适合用于实验性项目,因为缺乏丰富的框架和库可能导致开发效率低于使用成熟语言的项目。 Go语言早期阶段的定位与挑战 在go语言刚刚问世并处于实验性阶段时,其作为谷歌推出的一门新型编程语言,引起了业界的广泛关注。…

    2025年12月15日
    000
  • 谷歌和微软身份验证器是否支持HOTP算法?如何解决不支持的问题?

    谷歌和微软身份验证器是否支持HOTP?如何解决兼容性问题? 本文探讨谷歌和微软身份验证器对HOTP算法的支持情况,并提供解决兼容性问题的建议。 许多用户在使用双因素身份验证时依赖谷歌和微软身份验证器。然而,部分用户反馈称这两个应用似乎存在HOTP算法兼容性问题。 用户遇到的问题: 一位用户报告,使用…

    2025年12月15日
    000
  • 如何用API构建一个支持拼音查询汉字及解释的字典?

    利用API构建拼音查询汉字及释义字典 本文探讨如何通过API调用构建一个支持拼音查询,并返回汉字及释义的字典。 挑战: 如何编写代码,实现用户输入拼音,系统返回对应汉字及释义的功能? 解决方案: 借助第三方API,轻松实现拼音字典功能: 百度词典API:百度词典API支持拼音查询,并提供汉字释义。有…

    2025年12月15日
    000
  • Python3官网地址怎么访问_Python3官网地址访问方式与操作步骤

    Python3官网地址为https://www.python.org,可通过浏览器直接输入网址访问,或使用搜索引擎搜索“Python官网”点击官方链接进入,还可将官网页面添加书签以便后续快速访问。 Python3官网地址怎么访问?这是不少网友都关注的,接下来由PHP小编为大家带来Python3官网地…

    2025年12月14日
    000
  • Python并发编程:解决无限循环阻塞与实现任务并行

    本教程旨在解决Python中无限循环阻塞后续代码执行的问题,特别是当需要同时运行后台任务(如打印消息)和周期性操作(如窗口管理)时。我们将探讨从简单调整代码结构到利用Python的`threading`模块实现真正并发执行的多种方法,确保应用程序的响应性和效率。 引言:理解无限循环的阻塞效应 在Py…

    2025年12月14日
    000
  • Python如何制作网络嗅探器?scapy抓包分析

    使用python和scapy制作网络嗅探器的核心是sniff()函数与回调处理,1. 首先安装scapy并编写packet_callback函数解析ip、tcp、udp、icmp等协议层信息;2. 利用sniff(prn=packet_callback, filter=”ip&#8221…

    2025年12月14日
    000
  • 谷歌地图评论数据抓取:Playwright 问题解析与Selenium方案优化

    本文深入探讨了使用Playwright抓取谷歌地图评论数据时遇到的常见问题,特别是评论数量和平均星级无法完整获取的挑战。通过分析现有代码的潜在缺陷,文章提出并详细阐述了如何利用Selenium WebDriver作为更健壮的替代方案,并提供了关键的实现策略,包括元素定位、等待机制、动态内容处理及XP…

    2025年12月14日
    000
  • Python如何实现数据加密?hashlib模块应用

    hashlib模块不可逆,适用于数据完整性校验、密码存储或数字签名,但不适用于需要解密的加密场景。1. hashlib提供单向哈希功能,用于生成固定长度的哈希值,无法还原原始数据;2. 常见应用场景包括密码存储(存储哈希而非明文)、文件完整性校验;3. 对于需要解密的数据加密,应使用secrets模…

    2025年12月14日 好文分享
    000
  • 如何优化jieba分词以改善景区评论的关键词提取效果?

    提升Jieba分词精度,优化景区评论关键词提取 使用Jieba分词处理景区评论数据时,分词效果直接影响后续LDA主题模型的构建和关键词提取。本文探讨如何优化Jieba分词,提升关键词提取的准确性。 问题描述: 您希望利用Jieba分词生成景区评论词云,并通过LDA模型提取主题关键词。但发现现有分词结…

    2025年12月13日
    000
  • 如何设计多语言应用的后台系统以满足不同市场需求?

    高效构建多语言应用后台:兼顾简洁与灵活性 开发面向全球市场的视频应用,例如需要覆盖欧美、越南和中国市场的应用,其后台系统设计必须有效处理多语言和地区差异化内容。 本文探讨如何构建一个简洁高效的多语言应用后台,满足不同市场对视频封面、轮播图、广告投放等方面的个性化需求。 例如,同一视频(视频A)在不同…

    2025年12月13日
    000
  • AI模型的兴起,能够在各个行业创建内容,设计和解决方案

    引言 人工智能(AI)已不再是遥不可及的未来科技,它正深刻地改变着当今各行各业。先进的AI模型的出现,彻底革新了企业的内容创作、产品设计以及创新解决方案的开发模式。从AI写作助手到自动化图形设计工具,再到智能化业务解决方案,AI正以前所未有的方式改变着我们的工作方式和人机交互模式。 AI如何重塑内容…

    2025年12月13日
    000
  • 执行胜于借口:开发人员如何升级

    摆脱拖延症,立即行动!你是否总是计划着,却迟迟无法开始?别再等待“完美时机”了,因为完美时机根本不存在!世界奖励的是行动,而不是想法。准备好提升自我了吗?让我们一起开始吧! 1. 立即行动,别再犹豫 想让食物保鲜更久?想解决一直困扰你的难题?别再无限期地搜索谷歌了,赶快尝试各种解决方案吧!有时候,最…

    2025年12月13日
    000
  • 代码的出现 &#- 天爪装置

    第 13 天:爪子装置(数学,数学,还有更多数学)。 解决方案链接 今天的挑战是用 python 完成的,但有所改变。做出此选择是为了:a) 测试我的 python / 了解更多 pythonb) 今天看起来像是一个非常沉重的数学难题,所以觉得 python 会是完美的,我没有错 – 它…

    2025年12月13日
    000
  • 如何使用 Python 抓取 Google 搜索结果

    抓取 google 搜索可提供基本的 serp 分析、seo 优化和数据收集功能。现代抓取工具使这个过程更快、更可靠。 我们的一位社区成员撰写了此博客,作为对 crawlee 博客的贡献。如果您想向 crawlee 博客贡献此类博客,请通过我们的 discord 频道与我们联系。 在本指南中,我们将…

    2025年12月13日 好文分享
    000
  • python爬虫之谷歌怎么抓包

    使用Python爬虫抓取谷歌数据可以使用谷歌搜索API或第三方工具。具体步骤包括:使用谷歌搜索API:注册谷歌云平台账号并启用搜索API。安装google-api-python-client库。创建API客户端并执行搜索。解析搜索结果。使用第三方工具:selenium:用于模拟真实浏览器的行为。Be…

    2025年12月13日
    000
  • 如何构建您自己的 Google NotebookLM

    随着音频内容消费的日益普及,将文档或书面内容转换为真实音频格式的能力最近已成为趋势。 虽然 google 的 notebooklm 在这个领域引起了人们的关注,但我想探索使用现代云服务构建一个类似的系统。在本文中,我将向您介绍如何创建一个可扩展的云原生系统,该系统使用 fastapi、firebas…

    2025年12月13日
    000
  • 在人工智能工具的帮助下构建状态机库

    出于无聊,在等待后续面试时,我构建了一个由 genruler 提供支持的状态机库。准确地说,是我毕业后第一份工作期间建造的。这个实现大致是基于我的主管当时起草的设计。该项目还旨在展示如何利用规则 dsl。 根据谷歌搜索有限状态机返回的有用摘要(强调我的) “有限状态机”是指一种计算模型,其中系统在任…

    2025年12月13日
    000
  • 使用 Gemini Flash 构建视频洞察生成器

    视频理解或视频洞察由于其多方面的优势而在各个行业和应用中至关重要。它们通过自动生成元数据、对内容进行分类并使视频更易于搜索来增强内容分析和管理。此外,视频洞察提供了推动决策、增强用户体验并提高不同行业运营效率的关键数据。 google 的 gemini 1.5 模型为该领域带来了重大进步。除了在语言…

    2025年12月13日
    000
  • How Qubits are physically implemented?

    量子计算正在彻底改变我们处理信息的方式,利用量子力学原理以前所未有的速度执行计算。 这项技术的核心是量子位,即经典位的量子类似物。与可以是 0 或 1 的传统位不同,由于叠加和纠缠,量子位可以同时存在于多种状态。这种令人着迷的功能是通过各种物理实现实现的,每种物理实现都有其独特的特性和应用。 下面,…

    2025年12月13日 好文分享
    000

发表回复

登录后才能评论
关注微信