直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

不知 Gemini 1.5 Pro 是否用到了这项技术。

谷歌又放大招了,发布下一代 transformer 模型 infini-transformer。

Infini-Transformer 引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求。使用该技术,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8B 模型上,模型能处理 500K 的书籍摘要任务。
自 2017 年开创性研究论文《Attention is All You Need》问世以来,Transformer 架构就一直主导着生成式人工智能领域。而谷歌对 Transformer 的优化设计最近比较频繁,几天前,他们更新了 Transformer 架构,发布 Mixture-of-Depths(MoD),改变了以往 Transformer 计算模式。没过几天,谷歌又放出了这项新研究。
专注 AI 领域的研究者都了解内存的重要性,它是智能的基石,可以为 LLM 提供高效的计算。然而,Transformer 和基于 Transformer 的 LLM 由于注意力机制的固有特性,即 Transformer 中的注意力机制在内存占用和计算时间上都表现出二次复杂性。例如,对于批大小为 512、上下文长度为 2048 的 500B 模型,注意力键 – 值 (KV) 状态的内存占用为 3TB。但事实上,标准 Transformer 架构有时需要将 LLM 扩展到更长的序列(如 100 万 token),这就带来巨大的内存开销,并且随着上下文长度的增加,部署成本也在增加。
基于此,谷歌引入了一种有效的方法,其关键组成部分是一种称为 Infini-attention(无限注意力)的新注意力技术。不同于传统的 Transformer 使用局部注意力丢弃旧片段,为新片段释放内存空间。Infini-attention 增加了压缩内存(compressive memory),可以将使用后的旧片段存储到压缩内存中,输出时会聚合当前上下文信息以及压缩内存中的信息,因而模型可以检索完整的上下文历史。
该方法使 Transformer LLM 在有限内存的情况下扩展到无限长上下文,并以流的方式处理极长的输入进行计算。
实验表明,该方法在长上下文语言建模基准测试中的性能优于基线,同时内存参数减少了 100 倍以上。当使用 100K 序列长度进行训练时,该模型实现了更好的困惑度。此外该研究发现,1B 模型在 5K 序列长度的密钥实例上进行了微调,解决了 1M 长度的问题。最后,论文展示了具有 Infini-attention 的 8B 模型经过持续的预训练和任务微调,在 500K 长度的书籍摘要任务上达到了新的 SOTA 结果。
本文贡献总结如下:
引入了一种实用且强大的注意力机制 Infini-attention—— 具有长期压缩内存和局部因果注意力,可用于有效地建模长期和短期上下文依赖关系;
Infini-attention 对标准缩放点积注意力( standard scaled dot-product attention)进行了最小的改变,并通过设计支持即插即用的持续预训练和长上下文自适应;
该方法使 Transformer LLM 能够通过流的方式处理极长的输入,在有限的内存和计算资源下扩展到无限长的上下文。
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
论文链接:https://arxiv.org/pdf/2404.07143.pdf
论文标题:Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
方法介绍
Infini-attention 使 Transformer LLM 能够通过有限的内存占用和计算有效地处理无限长的输入。如下图 1 所示,Infini-attention 将压缩记忆融入到普通的注意力机制中,并在单个 Transformer 块中构建了掩码局部注意力和长期线性注意力机制。
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
对 Transformer 注意力层进行这种微妙但关键的修改可以通过持续的预训练和微调将现有 LLM 的上下文窗口扩展到无限长。
Infini-attention 采用标准注意力计算的所有键、值和查询状态,以进行长期记忆巩固(memory consolidation)和检索,并将注意力的旧 KV 状态存储在压缩内存中,而不是像标准注意力机制那样丢弃它们。在处理后续序列时,Infini-attention 使用注意查询状态从内存中检索值。为了计算最终的上下文输出,Infini-attention 聚合了长期记忆检索值和局部注意力上下文。
如下图 2 所示,研究团队比较了基于 Infini-attention 的 Infini-Transformer 和 Transformer-XL。与 Transformer-XL 类似,Infini-Transformer 对 segment 序列进行操作,并计算每个 segment 中的标准因果点积注意力上下文。因此,点积注意力计算在某种意义上是局部的。
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
然而,局部注意力在处理下一个 segment 时会丢弃前一个 segment 的注意力状态,但 Infini-Transformer 复用旧的 KV 注意力状态,以通过压缩存储来维护整个上下文历史。因此,Infini-Transformer 的每个注意力层都具有全局压缩状态和局部细粒度状态。
与多头注意力(MHA)类似,除了点积注意力之外,Infini-attention 还为每个注意力层维护 H 个并行压缩内存(H 是注意力头的数量)。
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
下表 1 列出了几种模型根据模型参数和输入 segment 长度,定义的上下文内存占用和有效上下文长度。Infini-Transformer 支持具有有限内存占用的无限上下文窗口。
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
实验
该研究在长上下文语言建模、长度为 1M 的密钥上下文块检索和 500K 长度的书籍摘要任务上评估了 Infini-Transformer 模型,这些任务具有极长的输入序列。对于语言建模,研究者选择从头开始训练模型,而对于密钥和书籍摘要任务,研究者采用不断预训练 LLM 的方式,以证明 Infini-attention 即插即用的长上下文适应能力。
长上下文语言建模。表 2 结果表明 Infini-Transformer 优于 Transformer-XL 和 Memorizing Transformers 基线,并且与 Memorizing Transformer 模型相比,存储参数减少了 114 倍。
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
密钥任务。表 3 为 Infini-Transformer 在 5K 长度输入上进行微调后,解决了高达 1M 上下文长度的密钥任务。实验中输入 token 的范围从 32K 到 1M,对于每个测试子集,研究者控制密钥的位置,使其位于输入序列的开头、中间或结尾附近。实验报告了零样本准确率和微调准确率。在对 5K 长度输入进行 400 个步骤的微调后,Infini-Transformer 解决了高达 1M 上下文长度的任务。
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
摘要任务。表 4 将 Infini-Transformer 与专门为摘要任务构建的编码器 – 解码器模型进行了比较。结果表明 Infini-Transformer 超越了之前最佳结果,并且通过处理书中的整个文本在 BookSum 上实现了新的 SOTA。 
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
研究者还在图 4 中绘制了 BookSum 数据验证分割的总体 Rouge 分数。根据折线趋势表明,随着输入长度的增加,Infini-Transformers 提高了摘要性能指标。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

来画数字人直播 来画数字人直播

来画数字人自动化直播,无需请真人主播,即可实现24小时直播,无缝衔接各大直播平台。

来画数字人直播 0 查看详情 来画数字人直播

以上就是直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/615906.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
微信聊天记录怎么截长图_微信聊天记录长截图拼接操作
上一篇 2025年11月11日 03:57:05
提高云原生应用程序中 Java 性能的 roven 策略
下一篇 2025年11月11日 03:57:10

相关推荐

  • JavaScript 闭包:理解闭包原理与内存泄漏问题

    闭包是函数访问其外部作用域变量的能力,即使外部函数已执行完毕。如 inner 函数引用 outer 中的 count,形成闭包,使变量持久存在。闭包本身无害,但可能因延长变量生命周期导致内存泄漏,例如事件监听器引用大对象时。若未及时清理 DOM 事件或定时器,闭包会阻止垃圾回收,造成内存占用过高。解…

    2026年5月10日
    100
  • 谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    使用谷歌浏览器的开发者工具截图步骤:1. 按ctrl+shift+i(windows/linux)或cmd+option+i(mac)打开开发者工具。2. 点击右上角三个点,选择”更多工具”,再选择”截图”。3. 选择截取整个页面。推荐的谷歌浏览器扩展…

    2026年5月10日 用户投稿
    100
  • Binance官方网站 币安Binance最新App下载 v3.8.0官方下载通道

    币安(binance)作为全球交易量领先的数字资产服务平台,其官方应用的安全性和功能的及时更新至关重要。本篇指南将为您详细解析如何通过币安官方网站,安全地获取并安装其最新版本的官方app,确保您使用的是官方正版通道,从而保障您的资产安全。 官网访问与账户准备 币安(Binance)官网入口: 币安(…

    2026年5月10日
    200
  • Golang如何提升TCP长连接处理效率_Golang TCP长连接处理性能优化实践详解

    答案:通过非阻塞I/O、单Goroutine双工模型、sync.Pool对象复用、TCP_NODELAY优化及高效心跳管理,结合系统调优,可显著提升Golang百万级TCP长连接处理效率。 在高并发网络服务场景中,TCP长连接的处理效率直接影响系统的吞吐能力和资源消耗。Golang凭借其轻量级Gor…

    2026年5月10日
    000
  • Golang 文件IO操作与性能优化实践

    合理使用Go标准库并优化IO策略可显著提升文件处理性能。1. 使用bufio减少系统调用,适合小块读写;2. 大文件用流式读取避免OOM,小文件可一次性加载;3. 并发分片读取大文件并配合预读提升吞吐;4. 结合系统调优如O_DIRECT、关闭atime等防止IO瓶颈。 Go语言在文件IO操作上提供…

    2026年5月10日
    000
  • Python Pandas:高效合并多工作簿多工作表 Excel 数据

    本教程详细指导如何使用 Python Pandas 库高效合并来自多个 Excel 文件中指定工作表的数据。文章将解释如何遍历文件目录、正确加载 Excel 文件、识别并解析特定工作表,并将来自不同文件的同名工作表数据智能地整合到一个 Pandas DataFrame 字典中,同时提供完整的示例代码…

    2026年5月10日
    000
  • C++怎么使用静态库和动态库_C++链接静态库与动态库的方法与区别

    静态库在编译时链接,生成独立可执行文件;动态库运行时加载,节省内存。1. 静态库用ar打包.o文件为.a,编译时通过-L和-l链接;2. 动态库需-fPIC编译生成.so,运行前配置LD_LIBRARY_PATH或系统路径;3. 静态库体积大但部署方便,动态库共享内存利于更新。 在C++项目开发中,…

    2026年5月10日
    000
  • 火币app下载 火币app官方下载最新版 火币htx交易所安卓版

    若您需要下载火币htx官方最新版的安卓应用,最安全可靠的方式是通过其官方网站进行获取。为了保障您的数字资产安全,请务必避免使用任何非官方渠道提供的下载链接或安装包,因为这些来源可能包含恶意软件,对您的账户和资金构成威胁。访问官网后,通常可以在页面显眼位置找到app下载入口或二维码。 火币官网直达: …

    2026年5月10日
    000
  • JavaScript DOM操作:点击关联元素获取目标文本内容的教程

    本教程详细介绍了如何通过JavaScript处理用户点击事件,并结合DOM的 closest() 和 querySelector() 方法,从复杂的HTML结构中准确获取目标元素的文本内容。文章强调了使用 addEventListener() 进行事件绑定、避免重复ID以及高效DOM遍历的最佳实践,…

    2026年5月10日
    000
  • 如何优化JavaScript代码的性能以避免运行时瓶颈?

    优化JavaScript性能需减少DOM操作,通过缓存查询、使用DocumentFragment和合并样式修改来降低重排重绘;2. 采用事件委托减少内存占用并提升绑定效率;3. 拆分长任务,利用requestIdleCallback、Web Worker和requestAnimationFrame避…

    2026年5月10日
    000
  • binance交易平台官网入口 币安官方最新版v3.3.0APP下载安装

    binance交易平台官网入口 币安官方最新版v3.3.0APP下载安装binance交易平台官网入口 币安官方最新版v3.3.0APP下载安装binance交易平台官网入口 币安官方最新版v3.3.0APP下载安装binance交易平台官网入口 币安官方最新版v3.3.0APP下载安装

    欢迎来到币安(binance)的世界!作为全球领先的数字资产交易平台,保障账户安全的第一步就是从官方渠道获取应用程序。本指南将引导您如何安全下载并安装最新版的币安app,并完成后续的注册与安全设置。 币安官网直达: 币安官方app: 一、币安官方App下载与安装 为了确保您的资金安全,请务必通过官方…

    2026年5月10日 用户投稿
    000
  • 欧易OKX交易平台官网注册入口 2026欧易官方手机App下载地址

    作为全球顶级的数字资产服务平台,欧易(okx)为用户提供了安全、稳定的交易环境。寻找一个长期有效且官方认证的注册入口至关重要。本指南旨在为您提供一个面向未来的欧易okx官方渠道指引,确保您在当下乃至未来几年,都能通过最安全的方式访问官网并下载官方正版手机应用。 欧易OKX官网注册:开启您的数字资产之…

    2026年5月10日
    000
  • XML流式解析的优势是什么?

    流式解析能高效处理超大XML文件,因它边读边处理,内存占用低。SAX事件驱动、性能高但状态管理复杂;StAX拉模式灵活可控,适合复杂逻辑。挑战包括上下文维护、错误恢复难、验证集成和无随机访问,需用栈管理、索引或混合模式应对。 XML流式解析的优势在于它能够以极低的内存消耗处理任意大小的XML文档,尤…

    2026年5月10日
    000
  • PHP递归和迭代哪个快_PHP递归与迭代执行效率对比评测

    递归因函数调用开销大、内存消耗高,在PHP中执行效率通常低于迭代;以斐波那契数列为例,朴素递归时间复杂度达O(2^n),迭代为O(n),带缓存的递归可优化至O(n)但仍慢于迭代;通过microtime和memory_get_usage对比测试可验证该结论;启用OPcache等环境优化可提升整体性能,…

    2026年5月10日
    000
  • 火币app手机版入口 火币交易所官方手机版入口

    火币app是一款广受欢迎的数字资产交易平台,为用户提供安全、便捷的加密货币交易服务。它支持多种主流数字货币的交易,并提供实时行情、专业k线图、法币交易、合约交易等多种功能,满足不同用户的交易需求。本文将为您提供官方app的下载链接及详细的安装教程,点击本文提供的下载链接即可安全下载。 火币App下载…

    2026年5月10日
    000
  • C# 如何高效读取超大xml文件

    使用 XmlReader 流式读取超大 XML 文件,避免内存溢出。1. 通过 XmlReader 逐节点解析,仅读取所需数据;2. 遇到 Record 节点时提取 Id 属性及 Name 元素值;3. 可结合 ReadSubtree 对局部子树使用 LINQ to XML 解析;4. 设置 Xml…

    2026年5月10日
    000
  • Go语言中基于Channel的并发快速排序:原理、实现与性能分析

    本文深入探讨了go语言中利用channel实现并发快速排序的机制。我们将分析其代码结构,阐明channel如何作为数据输入输出的管道,以及并发goroutine如何协同工作。同时,文章将重点评估这种实现方式的性能特点,指出其在展示go并发模型优雅性的同时,相比传统排序算法可能存在的性能开销与内存占用…

    2026年5月10日
    000
  • javascript闭包如何保存富文本状态

    javascript闭包如何保存富文本状态javascript闭包如何保存富文本状态javascript闭包如何保存富文本状态javascript闭包如何保存富文本状态

    闭包在富文本编辑器中扮演“守门人”和“隔离器”的角色,1. 它通过封装私有变量(如内容、撤销栈、选区)确保状态不被外部直接访问;2. 每个编辑器实例拥有独立的作用域,实现状态隔离;3. 提供公共方法作为唯一操作接口,保障数据一致性;4. 支持模块化与可维护性,便于测试与扩展;5. 需注意内存泄漏、过…

    2026年5月10日 用户投稿
    000
  • o易交易所APP官方下载2025 okex安卓正版安装包v6.137.1

    o易交易所APP是一款功能全面的数字资产交易平台,致力于为全球用户提供安全、便捷、专业的加密货币交易服务。该应用支持多种主流数字货币的交易,包括比特币(BTC)、以太坊(ETH)等,并提供币币交易、合约交易、理财等多元化服务。 欧易官网入口: 欧易okex安卓正版安装包v6.137.1: o易交易所…

    2026年5月10日
    000
  • 如何计算C++结构体的大小?解析结构体内存对齐原则

    如何计算C++结构体的大小?解析结构体内存对齐原则如何计算C++结构体的大小?解析结构体内存对齐原则如何计算C++结构体的大小?解析结构体内存对齐原则如何计算C++结构体的大小?解析结构体内存对齐原则

    结构体内存对齐的原则包括:1. 结构体成员对齐,每个成员按自身大小对齐;2. 结构体整体对齐,整体大小需是对齐系数(通常为最大成员大小)的倍数;3. 填充字节插入以满足上述规则。例如,struct mystruct { char a; int b; char c;} 默认情况下会因填充导致大小为12…

    2026年5月10日 用户投稿
    000

发表回复

登录后才能评论
关注微信