谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。

谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。

如果再进一步,想要找到出现频率最高的一个词,更是难如登天,即便能蒙对给出的具体数量也是错的。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

有人认为是词汇的 token 化导致了大模型看到的 ” 词 ” 和我们的看法不一致,但论文表明,实际情况并不是这么简单。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

想数清单词,嵌入维度要够大

Transformer 的计数能力与其嵌入维度 d 和词汇量 m(指词汇表中词的数量,非序列长度)的关系密切相关。

详细的原因,就涉及到了 Transformer 统计词频时的机制。

Transformer 通过一种特殊的嵌入方式,利用嵌入空间的线性结构,巧妙地将计数问题转化为了向量加法。

具体说是将每个词映射到一个独特的正交向量上,在这种表示下,词频可以通过对这些正交向量求和来简单地计算。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

然而,这种机制的局限性在于,它要求词汇表中的每个词都有一个独立的正交向量表示,因此嵌入维度必须大于词汇量。

嵌入维度不足时,词向量就无法保持正交性,词频的线性叠加也就无法实现了。

此时 Transformer 要实现计数,可以通过注意力机制(CountAttend)来实现,但需要一个随序列长度 n 线性增长的大型 ” 逆转 MLP” 层。

具体来说,模型首先通过注意力赋予被查询词较大的权重,再利用位置编码将注意力权重提取到值向量的最后一个元素,这个元素实际记录了被查询词的出现频率的倒数。

这意味着,模型需要一个大小为 O ( n ) 的 MLP 层来计算 1/x 函数(x 为某个词出现的次数)。

但进一步分析表明,任何常数层 ReLU 网络都无法在 o ( n ) 的神经元数量下逼近 1/x 函数。

因此,对于固定规模的 Transformer,这种方案无法推广到任意长度的序列。当序列长度超出训练集长度时,模型的计数能力会急剧恶化。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

长度非主要因素,词汇表中数量是关键

为了验证这一结论,作者一共进行了两个实验。

第一个实验,是在一个从头开始训练的 Transformer 模型上进行的,具体有关参数如下:

使用一个由两个 Transformer 层、四个注意力头组成的标准模型;

嵌入维度 d 的取值范围为 8 到 128;

对每个固定的 d,词汇量 m 从 5 到 150 变化,分别测试 20 个不同的值;

模型使用 Adam 优化器从零开始训练,批量大小为 16,学习率为 10^-4,训练 10 万步。

训练和评测数据通过随机采样生成。首先从大小为 m 的词汇表中均匀采样 n 个词,构成一个长度为 n 的序列。

序列长度 n 设置为 n=10m,平均每个词出现的次数固定为 10 次,一共使用了 1600 个样本进行测试。

作者发现,随着词汇量的增加,模型的计数准确率呈阶梯状下降,临界点恰好出现在词汇量超过嵌入维度的时刻。

为了进一步量化模型的计数能力,作者定义了一个指标 m_thr,表示模型的计数准确率下降到 80% 时的临界词汇量。

直观地说,m_thr 反映了在给定嵌入维度下,模型可以 ” 承受 ” 的最大词汇量,m_thr 越大说明模型的计数能力越强。

结果显示,对于计数(QC)和找出最高频词(MFC)的任务,m_thr 都随嵌入维度 d 的增大而近似线性增长。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

第二个实验则是在预训练的 Gemini 1.5 模型上开展,在这个实验中,作者更关注词汇量对计数能力的影响。

他们设计了一系列计数任务,每个任务使用不同大小的词汇表,并把每个词在序列中出现的平均次数固定。

这意味着,在实验组当中,词汇量越大,序列长度也就越长。

作为对照,作者还设置了一个 “Binary Baseline”,词汇表中只有固定为两个词,但序列长度与主实验组相同。

这样一来,就可以判断出带来模型计数误差的究竟是词汇量还是序列长度。

实验结果显示,随着词汇量的增加,Gemini 1.5 在计数任务上的平均绝对误差显著上升,而 “Binary Baseline” 的误差要低得多。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

这表明,词汇量的增加,而非序列长度的增长,是导致大模型计数能力下降的主要原因。

不过作者也表示,虽然这项研究一定程度上划定了大模型计数能力的上下界,但这些界限还不够紧致,距离理想的结果还有一定差距。

同时,作者也没有探究增加 Transformer 的层数是否会改变这一结论,需要未来开发新的技术工具才能进一步验证。

论文地址:

https://arxiv.org/abs/2407.15160

以上就是谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/157835.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月5日 01:40:41
下一篇 2025年12月5日 02:06:45

相关推荐

  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 满血旗舰折叠屏荣耀Magic V5发布,售价8999元起

    7月2日,荣耀(honor)在深圳市举行新品发布会,备受瞩目的轻薄折叠旗舰——荣耀magic v5正式登场。这款新品凭借颠覆性的制造工艺、全方位满血的旗舰配置、强大的ai智能体功能以及跨生态的深度融合,重新定义了折叠旗舰的新标准,实现八大“世界纪录”、八大满血体验、八大一语ai功能和七大ai生态布局…

    2025年12月5日 行业动态
    000
  • 为什么谷歌浏览器扩展程序无法启用?

    用户在使用谷歌浏览器时,可能会遇到某些扩展程序安装后无法启用或被自动禁用的情况,点击启用按钮也毫无反应。这一问题可能源于多种因素,包括扩展文件损坏、设置冲突或浏览器配置文件异常。本文将分析这些常见原因,并提供一系列排查步骤,帮助您解决扩展程序无法启用的问题,让您顺利使用所需的功能。 重新安装扩展程序…

    2025年12月5日
    000
  • 谷歌浏览器如何关闭后台运行进程?

    一些用户可能会发现,即使关闭了所有谷歌浏览器窗口,其进程依然在系统后台运行,这会持续占用一定的内存和处理器资源。这种情况通常是因为浏览器默认开启了后台应用运行模式,以支持通知和应用的快速启动。本文将指导您如何通过修改浏览器设置来彻底关闭后台运行进程,并介绍如何使用浏览器自带的任务管理器来处理当前运行…

    2025年12月5日
    000
  • 谷歌浏览器如何截图网页?

    当需要截取网页内容时,许多用户会选择使用系统自带的截图工具或安装第三方扩展程序。实际上,谷歌浏览器内置了一个功能强大的截图工具,它隐藏在开发者工具中,不仅可以截取当前可见区域,还能轻松实现对整个网页的滚动长截图。本文将详细介绍如何启用并使用这一原生功能,让您无需额外安装任何软件即可完成各种网页截图需…

    2025年12月5日
    000
  • 为什么谷歌浏览器总是提示“网页无响应”?

    当您在浏览网页时,谷歌浏览器弹出“网页无响应”的提示,意味着当前的标签页已经停止响应,无法进行任何操作,这无疑会中断您的工作流程。这个问题通常不是由单一原因引起的,它可能与特定网页的脚本、过多的后台活动、扩展程序冲突或浏览器缓存有关。本文将分析导致此问题的几个主要因素,并提供相应的排查和解决方法,帮…

    2025年12月5日
    000
  • 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

    meta、openai 等大模型厂商密集发力之际,谷歌也宣布了一项重磅更新—— 即日起,Gemini 聊天机器人将改由Gemini 1.5 Flash驱动。 与之前的版本相比,窗口长度提高到了 4 倍,响应速度也更快了。 按照谷歌的介绍,新版聊天机器人背后的 1.5 Flash 模型,主打的就是轻量…

    2025年12月5日 硬件教程
    000
  • 外媒吐槽谷歌发布会:炒 AI 冷饭 怀念过去纯粹的发布会

    近日,有外媒发文吐槽谷歌新机发布会,称这场活动的主角不像是手机,而是 ai。在 8 月 13 日的 made by google 活动上,谷歌似乎并不怎么提及最新的手机和硬件,反而急切地想要说服大家它的 ai 才是主角。” 我怀念过去那种纯粹的手机发布会,那时候发布的就是手机,而不是一场…

    2025年12月5日
    000
  • 苹果占 2023 年日本手机市场超一半份额 联想并列第五

    研究公司 idc 发布的最新数据显示,2023 年日本智能手机出货量为 3030 万部,较上年下降 11.6%。其中,iphone 销量下降 6.1%,android 手机销量下降 16.3%。从品牌排名来看,苹果以超过一半的市场份额遥遥领先,谷歌增长明显,联想与京瓷并列第五。 据CNMO报道,排名…

    2025年12月5日
    000
  • Android 15 测试版引入旧通知忽略功能 多设备用户爽了

    谷歌计划在 10 月 15 日为 pixel 系列推送 android 15 更新。据透露,android 15 将带来一系列新功能,而其中最受期待的是针对旧通知和重复通知的处理改进。如果你同时拥有多台 android 设备,但主要依赖其中一台作为日常使用,那么在其他设备上频繁收到已阅读或过时的通知…

    2025年12月4日
    000
  • 30亿参数与30%多语言数据:苹果AI创新难解销量困局

    近日,cnmo关注到,苹果发布了一份名为《apple intelligence foundation language models – tech report 2025》的技术白皮书,首次系统性公开其ai模型的训练架构与优化策略,全面展示了其在硬件协同设计与用户隐私保护方面的前沿探索。 然而,在这…

    2025年12月4日 行业动态
    000
  • 分析师:盈利速度“前所未见”,AI应用企业正在跃升为巨头

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AI初创企业的迅猛发展 4月14日,金融时报发布文章,指出多家利用大模型开发应用的AI初创企业,正迅速增加销售额,引发了一场将AI技术商业化的竞争。 投资者对Cursor、Perplexity、…

    2025年12月4日
    000
  • 谷歌浏览器网页图片保存后文件损坏怎么办

    先尝试重新下载图片并更换打开方式,若仍无法解决,则使用专业修复工具或从云端备份恢复。 谷歌浏览器保存的网页图片打不开、提示损坏,这通常是因为下载不完整或文件头信息丢失。别急着删,可以按以下方法一步步尝试解决。 检查并重新下载图片 最常见的情况是网络波动导致下载中断,文件不完整。 回到原网页,右键点击…

    2025年12月4日 电脑教程
    000
  • 2025年全球AI应用top20最新榜单出炉

    生成式AI与多模态应用的代表包括:1. OpenAI GPT-5通过图灵测试,支持跨模态推理,API调用量达10万亿次/月;2. DeepSeek-R1用户破百万,推理成本低,支持中文理解;3. Google Gemini Ultra与谷歌生态深度整合,市占率40%;4. MidJourney V5…

    2025年12月4日
    000
  • 为什么 StackOverflow 上的代码片段会摧毁你的项目?

    作者 | mahdhi rezvi 策划 | Tina 在 StackOverflow 上你会惊奇地发现,上面分享的一些解决常见问题的代码居然存在安全漏洞。 本文最初发布于 Mahdhi Rezvi 的个人博客,经原作者授权由 InfoQ 中文站翻译并分享。 现在,StackOverflow 已经成…

    2025年12月4日
    100
  • Agent Development Kit— 谷歌开源的 AI Agent 开发与部署框架

    agent development kit(adk)是谷歌开源的首个ai智能体开发工具包,这是一个代码优先的python工具包,旨在简化复杂ai代理的构建、评估和部署过程。adk支持多智能体架构,允许开发者构建由多个专业智能体组成的层次化应用,以实现复杂的协调和委派。该工具包提供丰富的工具生态系统,…

    2025年12月4日
    000
  • iPhone 17全系MagSafe设计图曝光 Pro版为断环样式

    随着苹果新一代旗舰机型iphone 17系列预计于2025年9月发布,最新传闻揭示了其magsafe设计的重大调整。根据外媒披露的可靠消息,iphone 17全系列机型的magsafe磁吸组件位置将整体下移,以腾出空间容纳更大的相机模组。值得注意的是,iphone 17 pro与pro max将采用…

    2025年12月4日
    100
  • Win10 Edge浏览器调整InPrivate 隐私浏览界面

    基于 Chromium 内核的新版 Microsoft Edge 浏览器,刚刚迎来了 InPrivate 隐私浏览界面的调整。现在,用户可以在中间位置看到新加入的必应搜索框。目前这项功能,已经向 Dev 和 Canary 渠道的 Insider 测试者推送。由 Reddit 网友 Leo 晒出的截图…

    2025年12月4日
    000
  • 谷歌浏览器怎么使用内置的二维码生成器_Chrome网页二维码分享功能使用教程

    首先启用Chrome的二维码生成功能,进入chrome://flags开启“Enable sharing page via QR Code”并重启浏览器;随后可通过右键菜单选择“为此页面创建二维码”或点击地址栏右侧的二维码图标生成当前网页二维码,供移动设备扫描分享。 如果您想快速将当前浏览的网页分享…

    2025年12月3日
    000
  • Socket 编程

    最近我在录制一套关于web页面获取mac地址的视频,这是一个真实项目中的案例,解决方案也经历了几次迭代。最终,我们通过使用socket api模拟http协议来解决这个问题。 以下是我录制的视频链接,《WEB端获取MAC地址真实项目案例》: https://www.php.cn/link/4e189…

    2025年12月3日
    000

发表回复

登录后才能评论
关注微信