语言模型有重大缺陷,知识推演竟然是老大难

惊人发现:大模型在知识推演上存在严重缺陷。

灵活运用知识是智慧的关键。人脑可以快速处理知识,如快速回答 “《静夜思》中有几个月字”。那么,大模型是否能进行类似操作?已知大模型可以通过思维链(Chain of Thought / CoT),先默写《静夜思》,再根据默写内容回答问题,但这会使生成的文字冗长。相比之下,人类可以在大脑中完成简单的知识推演,无需写出中间步骤。那么,超大语言模型能否在其人工脑 (artificial brain) 中直接生成答案,而无需先写下知识点呢?
答案竟然是否定的!图 1/2/3 展示了 GPT4 上的诸多反例。即使是最基本的分类(如判断名人生日的奇偶性)和比较(如比较两位总统的生日先后),竟然要通过思维链 Chain of Thought。更糟糕的是,大模型几乎完全不能逆向提取训练集中的知识。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

语言模型有重大缺陷,知识推演竟然是老大难

需要重新写作的内容是:图1:GPT4在知识分类/比较上出现错误,但通过思维链可以得到正确答案

语言模型有重大缺陷,知识推演竟然是老大难

需要重新写的内容是:图2:GPT4知识逆向搜索错误示例

语言模型有重大缺陷,知识推演竟然是老大难

图 3:虽然 GPT4 能正确回答 “某人的生日是哪天” 和 “某数是否为偶数”,但在将两者结合时,如果不用思维链 (CoT) 正确率只有 50%。在比较 1900-1910 年间名人的生日时,其表现也近乎盲猜。

朱泽园 (MetaAI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.2:知识的推演 (manipulation)》集中探讨了上面这些问题。
语言模型有重大缺陷,知识推演竟然是老大难

请点击以下链接查看论文:https://arxiv.org/abs/2309.14402

先问一个问题,诸如图 1/2/3 这样的问题,是 GPT4 对人的生日记忆不够精确(压缩比不够,训练 loss 不够低),还是未通过微调深化对奇偶性的理解?是否可以通过微调 GPT4,使其能够在模型内部组合现有知识,生成 “生日的奇偶性” 这种新知识,从而无需依赖 CoT 直接回答相关问题?由于我们不知道 GPT4 的训练数据集,无法微调。因此,作者提出通过可控训练集,来更深入研究语言模型的 “知识推演” 能力。

语言模型有重大缺陷,知识推演竟然是老大难

                              图 4:对 GPT4 之类的预训练模型,由于互联网数据的不可控性,很难确定情形 B/C/D 是否发生

在《语言模型物理学 Part 3.1:知识的储存与提取》一文中,作者构建了一个包含10万个人物传记的数据集。每个传记都包括人名以及六个属性:出生日期、出生地、大学专业、大学名称、工作地点和工作单位。举个例子:

Anya Briar Forger originated from Princeton, NJ. She dedicated her studies to Communications. She gained work experience in Menlo Park, CA. She developed her career at Meta Platforms. She came into this world on October 2, 1996. She pursued advanced coursework at MIT.

作者确保了传记条目的多样性,以帮助模型更好的存取知识。在预训练 (pretrain) 后,模型能通过微调准确回答知识提取类问题,如 “Anya 的生日是哪天” (正确率接近 100%)

接下来作者继续微调,试图让模型学会知识推演类问题,如知识的分类 / 比较 / 加减。文章发现,自然语言模型在知识推演方面的能力非常有限,难以通过微调产生新知识,即便它们只是模型已掌握知识的简单变换 / 组合。

语言模型有重大缺陷,知识推演竟然是老大难

图 5:若微调时不使用 CoT,让模型进行知识的分类 / 比较 / 减法,需要海量的样本或者正确率极低 —— 实验中用了 100 个专业

如图 5,作者发现,尽管预训练(pretrain)之后模型已经能准确回答每个人的生日(正确率接近 100%),但要通过微调让其回答 “xxx 的出生月是偶数吗?” 并达到 75% 的正确率 —— 别忘了盲猜有 50% 的正确率 —— 需要至少 10000 个微调样本。相较之下,如果模型能正确完成 “生日” 和 “奇偶性” 的知识组合,那么根据传统机器学习理论,模型只需学习对 12 个月份进行二分类,通常约 100 个样本就足够了!

同样,即使经过模型预训练后,它能够准确回答每个人的专业(共100个不同专业),但是即使使用了50000个微调样本,让模型比较“Anya的专业和Sabrina的专业哪个更好”,正确率仅为53.9%,几乎相当于瞎猜

ImagetoCartoon ImagetoCartoon

一款在线AI漫画家,可以将人脸转换成卡通或动漫风格的图像。

ImagetoCartoon 106 查看详情 ImagetoCartoon

然而,当我们使用CoT微调模型学习”Anya的出生月是十月,因此是偶数”这样的句子时,模型在测试集上判断出生月奇偶性的准确率显著提高(参见图5中的”测试用CoT”一列)

作者还尝试在微调训练数据中混合CoT和非CoT的回答,结果发现模型在测试集上不使用CoT时的正确率仍然很低(见图5的”test不用CoT”一列)。这说明,即便补上足够的CoT微调数据,模型依然无法学会”颅内思考”并直接报答案

这些结果表明,对于语言模型来说,进行简单的知识运算极其困难!模型必须先把知识点写出来再进行运算,无法像人一样在大脑里直接进行操作,即使经过充分的微调也无济于事。

逆向知识搜索所面临的挑战

研究还发现,自然语言模型无法通过逆向搜索来应用所学到的知识。尽管它可以回答有关某人的所有信息,但无法根据这些信息确定人名

作者对GPT3.5/4进行了试验,发现它们在逆向知识提取方面表现不佳(见图6)。然而,由于我们无法确定GPT3.5/4的训练数据集,这并不能证明所有语言模型都存在这个问题

语言模型有重大缺陷,知识推演竟然是老大难

图6:GPT3.5/4正向/逆向知识搜索的对比。我们之前报道的”逆转诅咒”工作(arxiv 2309.12288)也在现有的大模型上观察到了这一现象

作者利用前述的人物传记数据集,对模型的逆向知识搜索能力进行了更深入的可控试验。由于所有传记的人名都在段首,作者设计了10个反向信息提取问题,例如:

请问您知道在1996年10月2日在新泽西州普林斯顿出生的人叫什么名字吗?

“请告诉我在 MIT 学习 Communications ,1996 年 10 月 2 日在 Princeton, NJ 出生,并在 Menlo Park, CA 的 Meta Platforms 工作的人的名字是什么?”

语言模型有重大缺陷,知识推演竟然是老大难

需要进行改写的内容是:图7:在名人传记数据集上进行的可控试验

作者验证了,尽管模型实现了无损知识压缩和充分知识增强,且能几乎 100% 正确提取这些知识,在经过微调后,模型仍无法进行知识的逆向搜索,准确率几乎为零(见图 7)。但是,一旦逆向知识直接出现在预训练集中,逆向搜索的准确率立即飙升。

综上所述,只有在预训练集 (pretrain data) 中直接包含了逆向知识时,模型才能通过微调来回答逆向问题 —— 但这实际上是作弊,因为如果知识已经反转,就不再是 “逆向知识搜索” 了。如果预训练集只包含正向知识,模型无法通过微调来掌握逆向回答问题的能力。因此,使用语言模型进行知识索引 (knowledge database) 目前看来是不可能的。

此外,有些人可能会认为,上述的”逆向知识搜索”失败是因为自回归语言模型(如GPT)是单向的。然而,实际上,双向语言模型(如BERT)在知识提取方面表现更差,甚至在正向提取方面也会失败。对于感兴趣的读者,可以参考论文中的详细信息

以上就是语言模型有重大缺陷,知识推演竟然是老大难的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1050671.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月2日 10:03:46
下一篇 2025年12月2日 10:04:07

相关推荐

  • 用了一个星期的S25 Ultra,我有这些体验想和你分享一下

    三星galaxy s25 ultra:轻薄机身与ai赋能的完美融合 “均衡的手机千篇一律,有趣的手机万里挑一。”在手机市场同质化竞争日益激烈的今天,这句话或许道出了许多消费者的内心呼声。然而,三星Galaxy S系列却始终凭借其均衡的配置和体验,成为市场上的佼佼者。而全新发布的三星Galaxy S2…

    2025年12月6日 硬件教程
    000
  • 荣耀开始安排 6.3-6.5 英寸中小尺寸机型?两款新机曝光

    荣耀将推出中小尺寸屏幕新机型!据数码闲聊站爆料,荣耀计划发布两款中端机型,分别采用6.5英寸左右1.5k直屏和6.78英寸左右1.5k等深四曲屏,均配备7000毫安时以上大电池,并搭载骁龙7 gen 4处理器(sm7750),预计上半年发布。 爆料显示,荣耀正在积极布局中小尺寸手机市场,目前已启动6…

    2025年12月6日 硬件教程
    000
  • vivo Y300 Pro+评测:同档续航最强?

    作为vivo y系列十四周年纪念机型,y300 pro+以“样样加倍”的理念重新定义了中端机的标准。 为了解并解决用户的痛点,进一步巩固“国民手机”的定位,Y300 Pro+携“续航灭霸”的称号进入中端手机市场。 vivo Y300 Pro+肩负着“续航最强的全能国民手机”的使命,向同级别竞争对手发…

    2025年12月6日 硬件教程
    000
  • 怎样用免费工具美化PPT_免费美化PPT的实用方法分享

    利用KIMI智能助手可免费将PPT美化为科技感风格,但需核对文字准确性;2. 天工AI擅长优化内容结构,提升逻辑性,适合高质量内容需求;3. SlidesAI支持语音输入与自动排版,操作便捷,利于紧急场景;4. Prezo提供多种模板,自动生成图文并茂幻灯片,适合学生与初创团队。 如果您有一份内容完…

    2025年12月6日 软件教程
    000
  • JetBrains 发布 Junie AI 编程智能体 可执行编写调试等多步任务

    近日,jetbrains 正式宣布,其 ai 编程智能体 junie ai 已达到 ” 生产就绪 ” ( production-ready ) 状态。这意味着 junie ai 已经具备执行编写代码、调试运行等多步骤任务的能力,为开发者提供强大的 ai 支持。与此同时,jet…

    2025年12月6日 硬件教程
    000
  • Pages怎么协作编辑同一文档 Pages多人实时协作的流程

    首先启用Pages共享功能,点击右上角共享按钮并选择“添加协作者”,设置为可编辑并生成链接;接着复制链接通过邮件或社交软件发送给成员,确保其使用Apple ID登录iCloud后即可加入编辑;也可直接在共享菜单中输入邮箱地址定向邀请,设定编辑权限后发送;最后在共享面板中管理协作者权限,查看实时在线状…

    2025年12月6日 软件教程
    000
  • 各种手机处理器性能排行榜2025 全品牌手机性能处理器前十名推荐

    2025年全品牌手机性能处理器前十名分别是:1.联发科天玑9400 ,2.苹果A18 Pro,3.高通骁龙8至尊版,4.联发科天玑9300,5.高通骁龙8 Gen4,6.三星Exynos 2500,7.苹果A18 Bionic,8.华为麒麟9100,9.联发科天玑9200 ,10.高通骁龙7  Ge…

    2025年12月6日 硬件教程
    000
  • cpu天梯图最新排名2025 手机cpu处理器排行榜天梯图top10

    骁龙 8 Gen4、天玑 9400、A18 Pro 和 Exynos 2400 是当前旗舰处理器,分别适用于高端游戏、AI 创作、iOS 生态和游戏玩家。 立即进入“各种好用的网站点击进入”; 一、旗舰处理器(性能天花板) 1. 高通骁龙 8 Gen4 核心配置:1×Cortex-X5(3.8GHz…

    2025年12月6日 硬件教程
    000
  • REDMI K90系列正式发布,售价2599元起!

    10月23日,redmi k90系列正式亮相,推出redmi k90与redmi k90 pro max两款新机。其中,redmi k90搭载骁龙8至尊版处理器、7100mah大电池及100w有线快充等多项旗舰配置,起售价为2599元,官方称其为k系列迄今为止最完整的标准版本。 图源:REDMI红米…

    2025年12月6日 行业动态
    000
  • 商业市场AI绽放的秘密,藏在伙伴协同创新的“黑土地”里

    在ai深度赋能千行百业的浪潮中,企业数量庞大、覆盖范围广泛的商业市场正成为推动数智化变革的核心力量,其转型路径与实践模式日益受到关注。 据权威机构发布的数据显示,我国工业、批发零售住宿餐饮以及服务业三类规模以上企业的总数已突破百万,其资产规模、营收、利润及税收贡献占所有市场主体总量的80%以上,堪称…

    2025年12月6日 行业动态
    000
  • Linux中如何安装Nginx服务_Linux安装Nginx服务的完整指南

    首先更新系统软件包,然后通过对应包管理器安装Nginx,启动并启用服务,开放防火墙端口,最后验证欢迎页显示以确认安装成功。 在Linux系统中安装Nginx服务是搭建Web服务器的第一步。Nginx以高性能、低资源消耗和良好的并发处理能力著称,广泛用于静态内容服务、反向代理和负载均衡。以下是在主流L…

    2025年12月6日 运维
    000
  • Linux journalctl与systemctl status结合分析

    先看 systemctl status 确认服务状态,再用 journalctl 查看详细日志。例如 nginx 启动失败时,systemctl status 显示 Active: failed,journalctl -u nginx 发现端口 80 被占用,结合两者可快速定位问题根源。 在 Lin…

    2025年12月6日 运维
    000
  • 华为新机发布计划曝光:Pura 90系列或明年4月登场

    近日,有数码博主透露了华为2025年至2026年的新品规划,其中pura 90系列预计在2026年4月发布,有望成为华为新一代影像旗舰。根据路线图,华为将在2025年底至2026年陆续推出mate 80系列、折叠屏新机mate x7系列以及nova 15系列,而pura 90系列则将成为2026年上…

    2025年12月6日 行业动态
    000
  • Linux如何优化系统性能_Linux系统性能优化的实用方法

    优化Linux性能需先监控资源使用,通过top、vmstat等命令分析负载,再调整内核参数如TCP优化与内存交换,结合关闭无用服务、选用合适文件系统与I/O调度器,持续按需调优以提升系统效率。 Linux系统性能优化的核心在于合理配置资源、监控系统状态并及时调整瓶颈环节。通过一系列实用手段,可以显著…

    2025年12月6日 运维
    000
  • OPPO智慧服务吹起AI之风,移动开发拨云见日

    移动应用服务的迅猛发展,让我们的日常需求几乎都能通过一部手机轻松实现。然而,在繁荣表象之下,开发者正面临一场严峻的“可见性危机”。 用户手机中动辄安装上百款App,即便所需服务早已存在,关键时刻却难以迅速找到并使用。而开发者倾注心血打造的功能,往往因入口深藏、触达时机不准,无法有效抵达目标用户,在高…

    2025年12月6日 行业动态
    000
  • OPPO 开放式耳机 Enco Clip 亮相 单次充电可连续播放 9.5 小时

    5月7日,oppo首次推出开放式耳夹式耳机——oppo enco clip,这款耳机瞄准中端市场,预计将于5月15日正式发布,售价预计在千元以下。 在外观设计上,OPPO Enco Clip推出了珠光海和星岩灰两种颜色,采用了别致的小豆夹设计。用户无需将耳机塞入耳道,只需轻轻夹在耳朵上即可享受音乐。…

    2025年12月6日 硬件教程
    000
  • Linux中如何查看磁盘空间_Linux磁盘空间查看的多种方式

    使用df、du、lsblk等命令可全面查看Linux磁盘空间。1. df -h查看文件系统使用情况,显示总容量、已用、可用空间及挂载点;df -i检查inode使用,df -T显示文件系统类型。2. du -sh查看指定目录总大小,du -h –max-depth=1分析子目录占用,结合…

    2025年12月6日 运维
    000
  • 首款鸿蒙电脑惊艳亮相,华为重构电脑产业新格局

    华为鸿蒙电脑技术与生态沟通会隆重举行,首款鸿蒙电脑惊艳登场,这一标志性事件预示着华为在电脑领域迈出了具有深远影响的关键一步,为国产电脑产业带来了全新的革新与发展契机。 鸿蒙电脑的推出并非一朝一夕之功,而是华为经过五年精心策划的结果。在此期间,华为汇聚了超过10000名顶尖工程师,与20多家专业研究所…

    2025年12月6日 硬件教程
    000
  • Linux密码策略如何配置_Linux密码策略配置的详细指南

    答案:Linux密码策略通过PAM模块和配置文件设置密码复杂度、有效期、重复使用限制及账户锁定规则,提升系统安全。具体包括:1. 配置pam_pwquality.so实现最小长度8位、含大小写字母、数字、特殊字符,允许输错3次;2. 修改/etc/login.defs设置密码最长使用90天、最短7天…

    2025年12月6日 运维
    000
  • 曝小米17 Air正在筹备 超薄机身+2亿像素+eSIM技术?

    近日,手机行业再度掀起超薄机型热潮,三星与苹果已相继推出s25 edge与iphone air等轻薄旗舰,引发市场高度关注。在此趋势下,多家国产厂商被曝正积极布局相关技术,加速抢占这一细分赛道。据业内人士消息,小米的超薄旗舰机型小米17 air已进入筹备阶段。 小米17 Pro 爆料显示,小米正在评…

    2025年12月6日 行业动态
    000

发表回复

登录后才能评论
关注微信