真·量子速读：突破GPT-4一次只能理解50页文本限制，新研究扩展到百万token

程序猿 • 2025年11月9日 21:14:57 • 用户投稿 • 阅读 2

一个多月前，OpenAI 的 GPT-4 问世。除了各种出色的直观演示外，它还实现了一个重要更新：可以处理的上下文 token 长度默认为 8k，但最长可达 32K（大约 50 页文本）。这意味着，在向 GPT-4 提问时，我们可以输入比之前长得多的文本。这使得 GPT-4 的应用场景大大扩展，能更好地处理长对话、长文本以及文件搜索和分析。

不过，这一记录很快就被打破了：来自谷歌研究院的 CoLT5 将模型可以处理的上下文 token 长度扩展到了 64k。

这样的突破并不容易，因为这些使用 Transformer 架构的模型都要面临一个问题：Transformer 处理长文档在计算上是非常昂贵的，因为注意力成本随输入长度呈二次增长，这使得大型模型越来越难以应用于更长的输入。

尽管如此，研究者依然在此方向上不断突破。前几天，一篇来自开源对话 AI 技术栈 DeepPavlov 等机构的研究表明：通过采用一种名为 Recurrent Memory Transformer（RMT）的架构，他们可以将 BERT 模型的有效上下文长度增加到 200 万个 token（按照 OpenAI 的计算方式，大约相当于 3200 页文本），同时保持了较高的记忆检索准确性（注：Recurrent Memory Transformer 是 Aydar Bulatov 等人在 NeurIPS 2022 的一篇论文中提出的方法）。新方法允许存储和处理局部和全局信息，并通过使用 recurrence 使信息在输入序列的各 segment 之间流动。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

作者表示，通过使用 Bulatov 等人在「Recurrent Memory Transformer」一文中介绍的简单的基于 token 的记忆机制，他们可以将 RMT 与 BERT 这样的预训练 Transformer 模型结合起来，用一个 Nvidia GTX 1080Ti GPU 就可以对超过 100 万个 token 的序列进行全注意和全精度操作。

论文地址：https://arxiv.org/pdf/2304.11062.pdf

文心大模型

百度飞桨-文心大模型 ERNIE 3.0 文本理解与创作

56 查看详情

不过，也有人提醒说，这并不是真正的「免费的午餐」，上述论文的提升是用「更长的推理时间 + 实质性的质量下降」换来的。因此，它还不能算是一次变革，但它可能成为下一个范式（token 可能无限长）的基础。

Recurrent Memory Transformer

该研究采用 Bulatov 等人 2022 年提出的方法 Recurrent Memory Transformer（RMT），并将其改成即插即用的方法，主要机制如下图所示：

冗长的输入被分成多个 segment，记忆向量（memory vector）被添加到第一个 segment 嵌入之前，并与 segment token 一起处理。对于像 BERT 这样的纯编码器模型，记忆只在 segment 的开头添加一次，这一点与 (Bulatov et al., 2022) 不同，纯解码器模型将记忆分为读取和写入两部分。对于时间步长 τ 和 segment

，循环按照如下步骤执行：

其中，N 是 Transformer 的层数。前向传播之后，

包含 segment τ 的更新记忆 token。

输入序列的 segment 按照顺序处理。为了启用循环连接，该研究将记忆 token 的输出从当前 segment 传递到下一个 segment 的输入：

RMT 中的记忆和循环都仅基于全局记忆 token。这允许主干 Transformer 保持不变，从而使 RMT 的记忆增强能力与任何 Transformer 模型都兼容。

计算效率

该研究估算了不同大小和序列长度的 RMT 和 Transformer 模型所需的 FLOP。

如下图 3 所示，如果 segment 的长度固定，RMT 可针对任何模型大小进行线性扩展。该研究通过将输入序列分成 segment，并仅在 segment 边界内计算完整的注意力矩阵来实现线性扩展。

由于 FFN 层的计算量很大，较大的 Transformer 模型往往会表现出较慢的随序列长度的二次扩展（quadratic scaling）。然而，对于大于 32000 的超长序列，它们会退回到二次扩展。对于多于一个 segment 的序列（本研究中 > 512），RMT 比非循环模型需要更少的 FLOP，并且可以将 FLOP 的数量减少多达 295 倍。RMT 为较小的模型提供了更大的 FLOP 相对减少，但在绝对数量上，OPT-175B 模型的 FLOP 减少了 29 倍是非常显著的。

记忆任务

为了测试记忆能力，该研究构建了需要记忆简单事实和基本推理的合成数据集。任务输入由一个或多个事实和一个只有使用所有事实才能回答的问题组成。为了增加任务难度，该研究还添加了与问题或答案无关的自然语言文本来充当噪声，因此模型的任务是将事实与不相关的文本分开，并使用事实来回答问题。

事实记忆

第一项任务是检测 RMT 在记忆中长时间写入和存储信息的能力，如下图 4 顶部所示。在最简单的情况下，事实往往位于输入开头，而问题总是在末尾。问题和答案之间不相关文本的数量逐渐增加，以至于整个输入不适合单个模型输入。

事实检测与记忆

事实检测通过将一个事实移动到输入中的随机位置来增加任务难度，如上图 4 中部所示。这需要模型首先将事实与不相关文本区分开来，把事实写入记忆中，然后用它回答位于末尾的问题。

利用记忆事实进行推理

记忆的另一个操作是使用记忆事实和当前上下文进行推理。为了评估这一功能，研究者使用了一个更复杂的任务，其中生成了两个事实并将它们放置在了输入序列之中，如上图 4 底部所示。在序列末尾提出的问题是以一种「必须使用任意事实来正确回答问题」的方式来描述。

实验结果

研究者使用 4 到 8 块英伟达 1080ti GPU 来训练和评估模型。对于更长的序列，他们则使用单个 40GB 的英伟达 A100 来加快评估速度。

课程学习

研究者观察到，使用训练计划能够显著提升解决方案的准确性和稳定性。最开始，RMT 在较短版本的任务上进行训练，并在训练收敛时通过添加另一个 segment 来增加任务长度。课程学习过程一直持续，直到达到所需的输入长度。

在实验中，研究者首先从适合单个 segment 的序列开始。实际 segment 的大小为 499，但由于 BERT 的 3 个特殊 token 和 10 个记忆占位符从模型输入中保留下来，大小为 512。他们注意到，在较短任务上训练后，RMT 更容易解决更长版本任务，这得益于它使用更少训练步收敛到完美的解决方案。

外推能力

RMT 对不同序列长度的泛化能力如何呢？为了回答这个问题，研究者评估了在不同数量 segment 上训练的模型，以解决更长的任务，具体如下图 5 所示。

他们观察到，模型往往在较短任务上表现更好，唯一的例外是单 segment 推理任务，一旦模型在更长序列上训练，则该任务变得很难解决。一个可能的解释是：由于任务大小超过了一个 segment，则模型不再「期待」第一个 segment 中的问题，导致质量下降。

有趣的是，RMT 泛化到更长序列的能力也随着训练 segment 的增加而出现。在 5 个或更多 segment 上训练后，RMT 可以近乎完美地泛化到两倍长的任务。

为了测试泛化的局限性，研究者将验证任务大小增至 4096 个 segment 或 2,043,904 个 token（如上图 1 所示），RMT 在如此长的序列上表现得出奇的好。检测和记忆任务最简单，推理任务最复杂。

记忆操作的注意力模式

在下图 6 中，通过检查特定 segment 上的 RMT 注意力，研究者观察到了记忆操作对应特定的注意力模式。此外 5.2 节中极长序列上的高外推性能证明了学得记忆操作的有效性，即使使用数千次也是如此。

更多技术与实验细节请参阅原论文。

以上就是真·量子速读：突破GPT-4一次只能理解50页文本限制，新研究扩展到百万token的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/553560.html

ai 量子

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

荣耀V系列手机为什么无法卸载应用？快速清理软件的实用教程

上一篇 2025年11月9日 21:14:56

深入浅析node.js中的express路由

下一篇 2025年11月9日 21:15:00

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
7000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
3000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
2000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
3000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
3000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
1000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
1000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
1000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
1000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
1000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
3000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
好文分享

如何用 CSS Paint API 实现倾斜的斑马线间隔圆环？

实现斑马线边框样式：探究 css paint api 本文将探究如何使用 css paint api 实现倾斜的斑马线间隔圆环。问题：给定一个有多个圆圈组成的斑马线图案，如何使用 css 实现倾斜的斑马线间隔圆环？答案：立即学习“前端免费学习笔记（深入）”；使用 css paint api…

程序猿
2025年12月24日
1000
好文分享

如何使用CSS Paint API实现倾斜斑马线间隔圆环边框？

css实现斑马线边框样式想定制一个带有倾斜斑马线间隔圆环的边框？现在使用css paint api，定制任何样式都轻而易举。 css paint api 这是一个新的css特性，允许开发人员创建自定义形状和图案，其中包括斑马线样式。立即学习“前端免费学习笔记（深入）”；实现倾斜斑马线间隔圆环 …

程序猿
2025年12月24日
1000