直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

程序猿 • 2025年11月11日 03:57:06 • 用户投稿 • 阅读 0

不知 Gemini 1.5 Pro 是否用到了这项技术。

谷歌又放大招了，发布下一代 transformer 模型 infini-transformer。

Infini-Transformer 引入了一种有效的方法，可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入，而不增加内存和计算需求。使用该技术，研究者成功将一个 1B 的模型上下文长度提高到 100 万；应用到 8B 模型上，模型能处理 500K 的书籍摘要任务。

自 2017 年开创性研究论文《Attention is All You Need》问世以来，Transformer 架构就一直主导着生成式人工智能领域。而谷歌对 Transformer 的优化设计最近比较频繁，几天前，他们更新了 Transformer 架构，发布 Mixture-of-Depths（MoD），改变了以往 Transformer 计算模式。没过几天，谷歌又放出了这项新研究。

专注 AI 领域的研究者都了解内存的重要性，它是智能的基石，可以为 LLM 提供高效的计算。然而，Transformer 和基于 Transformer 的 LLM 由于注意力机制的固有特性，即 Transformer 中的注意力机制在内存占用和计算时间上都表现出二次复杂性。例如，对于批大小为 512、上下文长度为 2048 的 500B 模型，注意力键 – 值 (KV) 状态的内存占用为 3TB。但事实上，标准 Transformer 架构有时需要将 LLM 扩展到更长的序列（如 100 万 token），这就带来巨大的内存开销，并且随着上下文长度的增加，部署成本也在增加。

基于此，谷歌引入了一种有效的方法，其关键组成部分是一种称为 Infini-attention（无限注意力）的新注意力技术。不同于传统的 Transformer 使用局部注意力丢弃旧片段，为新片段释放内存空间。Infini-attention 增加了压缩内存（compressive memory），可以将使用后的旧片段存储到压缩内存中，输出时会聚合当前上下文信息以及压缩内存中的信息，因而模型可以检索完整的上下文历史。

该方法使 Transformer LLM 在有限内存的情况下扩展到无限长上下文，并以流的方式处理极长的输入进行计算。

实验表明，该方法在长上下文语言建模基准测试中的性能优于基线，同时内存参数减少了 100 倍以上。当使用 100K 序列长度进行训练时，该模型实现了更好的困惑度。此外该研究发现，1B 模型在 5K 序列长度的密钥实例上进行了微调，解决了 1M 长度的问题。最后，论文展示了具有 Infini-attention 的 8B 模型经过持续的预训练和任务微调，在 500K 长度的书籍摘要任务上达到了新的 SOTA 结果。

本文贡献总结如下：

引入了一种实用且强大的注意力机制 Infini-attention—— 具有长期压缩内存和局部因果注意力，可用于有效地建模长期和短期上下文依赖关系；

Infini-attention 对标准缩放点积注意力（ standard scaled dot-product attention）进行了最小的改变，并通过设计支持即插即用的持续预训练和长上下文自适应；

该方法使 Transformer LLM 能够通过流的方式处理极长的输入，在有限的内存和计算资源下扩展到无限长的上下文。

论文链接：https://arxiv.org/pdf/2404.07143.pdf

论文标题：Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

方法介绍

Infini-attention 使 Transformer LLM 能够通过有限的内存占用和计算有效地处理无限长的输入。如下图 1 所示，Infini-attention 将压缩记忆融入到普通的注意力机制中，并在单个 Transformer 块中构建了掩码局部注意力和长期线性注意力机制。

对 Transformer 注意力层进行这种微妙但关键的修改可以通过持续的预训练和微调将现有 LLM 的上下文窗口扩展到无限长。

Infini-attention 采用标准注意力计算的所有键、值和查询状态，以进行长期记忆巩固（memory consolidation）和检索，并将注意力的旧 KV 状态存储在压缩内存中，而不是像标准注意力机制那样丢弃它们。在处理后续序列时，Infini-attention 使用注意查询状态从内存中检索值。为了计算最终的上下文输出，Infini-attention 聚合了长期记忆检索值和局部注意力上下文。

如下图 2 所示，研究团队比较了基于 Infini-attention 的 Infini-Transformer 和 Transformer-XL。与 Transformer-XL 类似，Infini-Transformer 对 segment 序列进行操作，并计算每个 segment 中的标准因果点积注意力上下文。因此，点积注意力计算在某种意义上是局部的。

然而，局部注意力在处理下一个 segment 时会丢弃前一个 segment 的注意力状态，但 Infini-Transformer 复用旧的 KV 注意力状态，以通过压缩存储来维护整个上下文历史。因此，Infini-Transformer 的每个注意力层都具有全局压缩状态和局部细粒度状态。

与多头注意力（MHA）类似，除了点积注意力之外，Infini-attention 还为每个注意力层维护 H 个并行压缩内存（H 是注意力头的数量）。

下表 1 列出了几种模型根据模型参数和输入 segment 长度，定义的上下文内存占用和有效上下文长度。Infini-Transformer 支持具有有限内存占用的无限上下文窗口。

实验

该研究在长上下文语言建模、长度为 1M 的密钥上下文块检索和 500K 长度的书籍摘要任务上评估了 Infini-Transformer 模型，这些任务具有极长的输入序列。对于语言建模，研究者选择从头开始训练模型，而对于密钥和书籍摘要任务，研究者采用不断预训练 LLM 的方式，以证明 Infini-attention 即插即用的长上下文适应能力。

长上下文语言建模。表 2 结果表明 Infini-Transformer 优于 Transformer-XL 和 Memorizing Transformers 基线，并且与 Memorizing Transformer 模型相比，存储参数减少了 114 倍。

密钥任务。表 3 为 Infini-Transformer 在 5K 长度输入上进行微调后，解决了高达 1M 上下文长度的密钥任务。实验中输入 token 的范围从 32K 到 1M，对于每个测试子集，研究者控制密钥的位置，使其位于输入序列的开头、中间或结尾附近。实验报告了零样本准确率和微调准确率。在对 5K 长度输入进行 400 个步骤的微调后，Infini-Transformer 解决了高达 1M 上下文长度的任务。

摘要任务。表 4 将 Infini-Transformer 与专门为摘要任务构建的编码器 – 解码器模型进行了比较。结果表明 Infini-Transformer 超越了之前最佳结果，并且通过处理书中的整个文本在 BookSum 上实现了新的 SOTA。

研究者还在图 4 中绘制了 BookSum 数据验证分割的总体 Rouge 分数。根据折线趋势表明，随着输入长度的增加，Infini-Transformers 提高了摘要性能指标。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

来画数字人直播

来画数字人自动化直播，无需请真人主播，即可实现24小时直播，无缝衔接各大直播平台。

0 查看详情

以上就是直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/615906.html

gemini type 产业内存占用谷歌

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

微信聊天记录怎么截长图_微信聊天记录长截图拼接操作

上一篇 2025年11月11日 03:57:05

提高云原生应用程序中 Java 性能的 roven 策略

下一篇 2025年11月11日 03:57:10

好文分享

谷歌搜索的鼠标悬停阴影效果是如何实现的？

谷歌搜索悬停阴影效果解析在谷歌搜索页面中，当鼠标悬停在搜索框或按钮上时，会出现一个微妙的边缘阴影。想要了解这一效果的实现原理，许多开发者可能率先想到使用 css。 css 探索遗憾的是，在 css 代码中无法找到与阴影效果直接相关的属性或值。继续探索其他实现方法。浏览器开发者工具助力使用浏览…

程序猿
2025年12月24日
0000
好文分享

如何用 CSS 实现谷歌搜索框鼠标悬停时的边缘阴影效果？

谷歌搜索框鼠标悬停时边缘阴影效果实现对于谷歌搜索框在鼠标悬停时的边缘阴影效果，你可能找不到直接的 css 代码，但这种效果可以通过 box-shadow 属性实现。 box-shadow 可以创建箱子周围的阴影效果，它的语法如下： box-shadow: h-offset v-offset blu…

程序猿
2025年12月24日
2000
好文分享

如何实现谷歌搜索框鼠标悬停时的边缘阴影效果？

如何实现谷歌搜索框鼠标悬停时的边缘阴影效果？在谷歌搜索中，当鼠标悬停在搜索框和按钮上时，会产生一种精致的边缘阴影效果。实现这一效果需要使用 css 的 box-shadow 属性。 box-shadow 属性 box-shadow 属性允许在元素周围创建阴影效果。其语法为： box-shadow:…

程序猿
2025年12月24日
2000
好文分享

鼠标悬停时，谷歌搜索元素的阴影效果是如何实现的？

鼠标悬停时突出显示谷歌搜索元素的阴影效果是如何实现的该效果是通过 css 的 box-shadow 属性实现的，该属性用于在元素周围创建阴影效果。当鼠标悬停在元素上时，应用 :hover 伪类，并添加 box-shadow 属性，为元素指定阴影效果。下面是一个示例 css 代码，它给谷歌搜索框…

程序猿
2025年12月24日
1000
CSS 砌体 Catness

css 就像技术中的其他东西一样 – 它总是在变化和发展。该领域正在进行的开发是 css 网格布局模块级别 3，也称为 css masonry 布局。 theo 制作了一段视频，介绍了它的开发方式以及苹果和谷歌就如何实施它进行的辩论。所有这些让我很高兴尝试 css 砌体！ webkit…

程序猿
好文分享 2025年12月24日
0000
好文分享

谷歌浏览器重命名文件后缩进消失，火狐浏览器却不会，这是为什么？

谷歌浏览器重命名文件后缩进消失，而火狐浏览器不会在谷歌浏览器中使用 WEB IDE 时遇到一个奇怪的问题。当重命名目录树中的文件后，目录树左侧的缩进消失了。但是，在开发者工具中发现导致缩进消失的其实是设置了 margin-right: -17px，而不是正常的 margin-left: -17px…

程序猿
2025年12月24日
0000
好文分享

为什么重命名文件后，谷歌浏览器和火狐浏览器的目录树缩进表现不同？

为什么在重命名文件后，谷歌浏览器和火狐浏览器的目录树表现不同？一位开发者遇到了一个令人迷惑的问题：在谷歌浏览器中的 WEB IDE 中重命名文件时，目录树中的缩进会消失。经过检查，开发者发现目录树元素有一个 margin-right:-17px 样式，这与预期中 margin-left:-17px…

程序猿
2025年12月24日
3000
好文分享

谷歌浏览器和火狐浏览器在重命名文件时，为何表现出不同的缩进差异？

浏览器在重命名文件时表现差异的原因当你使用谷歌浏览器中的 WEB IDE 重命名文件时，你遇到的问题是：整个目录树向左移动，缩进消失。同时，你发现该元素设置了 margin-right: -17px，但它应该设置为 margin-left: -17px。这个问题的原因是因为谷歌浏览器在处理 CS…

程序猿
2025年12月24日
2000
好文分享

谷歌浏览器目录树缩进消失：是 Bug 还是配置问题？

浏览器中的目录树缩进差异问题：在谷歌浏览器使用 WEB IDE 时，重命名文件会消除目录树的缩进，但火狐浏览器没有这个问题。这是谷歌的 Bug 吗？答案：不是谷歌的 Bug。解释：在 Google 浏览器中，浏览器错误地将 margin-right:-17px 应用于目录树元素，而不是 …

程序猿
2025年12月24日
3000
好文分享

HTML如何计算页面FPS_性能监测实现方法【技巧】

可通过五种方法实时监测网页FPS：一、requestAnimationFrame计算帧间隔；二、PerformanceObserver监听paint事件；三、chrome://tracing离线分析；四、performance.getEntriesByType(‘frame’…

程序猿
2025年12月23日
0000
好文分享

谷歌如何使用html5_谷歌浏览器HTML5使用与支持设置技巧【详解】

Chrome中HTML5问题需通过五步解决：一、更新至v132+确保基础支持；二、在chrome://flags启用WebGPU等实验功能；三、用chrome://gpu、chrome://media-internals及Console命令验证硬件加速与API就绪；四、在网站设置中授权相机、位置等权…

程序猿
2025年12月23日
0000
好文分享

html 如何置顶_设置HTML元素始终置顶显示【始终】

可通过CSS的position: fixed、position: sticky、JavaScript动态监听滚动、transform + fixed组合及CSS容器查询五种方案实现元素滚动置顶，各适用于不同兼容性与交互需求场景。如果您希望某个HTML元素在页面滚动时始终保持在视口顶部位置，可通过C…

程序猿
2025年12月23日
2000
好文分享

谷歌浏览器怎么运行html_谷歌浏览器运行html方法【教程】

可通过拖拽HTML文件至谷歌浏览器窗口直接预览；2. 也可通过浏览器菜单选择“打开文件”加载本地文档；3. 还能手动在地址栏输入file:///加文件路径访问；4. 最后可创建桌面快捷方式实现快速启动，四种方法均有效运行HTML文件。如果您编写了一个HTML文件，想要在浏览器中查看其实际效果，谷歌…

程序猿
2025年12月23日
0000
好文分享

JavaScript教程：如何准确获取HTML中被点击按钮的Value值

本文详细讲解如何在JavaScript中准确获取用户点击的HTML按钮的`value`属性，尤其当页面存在多个具有相同类名的按钮时。通过使用`addEventListener`方法为每个按钮绑定事件监听器，并利用事件处理函数内部的`this`关键字，我们可以轻松地引用到被点击的特定按钮元素，从而获取…

程序猿
2025年12月23日
0000
好文分享

深入理解Shadow DOM样式隔离：解决用户代理样式与继承冲突

shadow dom的样式隔离特性导致全局%ignore_a_1%规则无法直接作用于其内部元素。特别是对于可继承属性，用户代理的默认样式可能覆盖外部继承值。本文将详细探讨shadow dom内样式冲突的原理，并提供两种主要解决方案：利用`inherit`关键字确保可继承属性正确传递，以及通过`ado…

程序猿
2025年12月23日
1000
好文分享

JavaScript实现单选按钮联动：选择时禁用其他关联输入框的教程

本教程详细讲解如何通过javascript实现单选按钮的联动效果。当用户选择一个单选按钮时，其关联的输入框将被启用并聚焦，同时禁用其他未选中的单选按钮及其对应的输入框。文章强调了正确的html结构（特别是`name`属性和`label`的使用）以及事件委托机制，以提升用户体验、确保数据完整性和页面可…

程序猿
2025年12月23日
3000
好文分享

使用JavaScript通过事件委托和数据属性实现动态内容更新

本文详细介绍了如何利用javascript的事件委托机制和html的`data-*`属性，高效地管理和更新网页上的动态内容。通过一个具体案例，演示了如何根据单选按钮的选择，在同一显示区域内切换显示不同的文本和数值，同时保持代码的简洁性和可维护性，并覆盖了默认值设置、数值与文本混合处理等常见需求。在…

程序猿
2025年12月23日
0000
好文分享

谷歌怎么运行html_谷歌运行html步骤【指南】

谷歌浏览器通过打开本地文件来渲染HTML页面。首先创建并保存.html格式的HTML文件，如index.html；然后将其保存至易访问位置，确保扩展名正确；接着可通过拖拽文件到Chrome窗口、右键选择“用Google Chrome打开”或在浏览器中通过“打开文件”功能加载页面；最后利用右键“检查”…

程序猿
2025年12月23日
0000
好文分享

JavaScript DOM操作：点击关联元素获取目标文本内容的教程

本教程详细介绍了如何通过JavaScript处理用户点击事件，并结合DOM的 closest() 和 querySelector() 方法，从复杂的HTML结构中准确获取目标元素的文本内容。文章强调了使用 addEventListener() 进行事件绑定、避免重复ID以及高效DOM遍历的最佳实践，…

程序猿
2025年12月23日
0000
好文分享

怎么把html运行在谷歌上_谷歌运行html文件方法【教程】

可通过拖拽HTML文件至谷歌浏览器窗口直接预览；2. 使用浏览器菜单中的“打开文件”功能选择并加载本地HTML文件；3. 在地址栏输入file:///加文件完整路径手动运行；4. 利用VS Code等编辑器配合Live Server插件实现自动刷新实时预览。如果您想在谷歌浏览器中查看或测试一个HT…

程序猿
2025年12月23日
0000

发表回复

登录后才能评论

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

关于作者

相关推荐

发表回复