小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

在当前 ai 领域,大语言模型采用的主流架构是 transformer。不过,随着 rwkv、mamba 等架构的陆续问世,出现了一个很明显的趋势:在语言建模困惑度方面与 transformer 较量的循环大语言模型正在快速进入人们的视线。

令人兴奋的是,这些架构在推理期间使用了恒定量的内存。不过,受制于有限的内存,循环语言模型(LM)无法记忆并使用长上下文中的所有信息,这导致了上下文学习(in-context learning,ICL)质量的不佳。因此,获得高效大语言模型的关键挑战在于选择存储或者丢弃哪些信息。

在最近的论文《Just read twice: closing the recall gap for recurrent language models》中,来自斯坦福大学、布法罗大学的研究者通过简单观察发现,数据在推理期间涌入循环语言模型的排序极大地影响了在有限内存中预测存储哪些信息的难度。

我们假设根据文档 D(比如伽利略・伽利莱的详细维基百科)来提问:伽利略是什么时候搬到的佛罗伦萨?这时,如果提示遵循了 [Q, D] 的排序,则模型只需要记住文档 D 中的一个事实即可。相反,如果提示遵循了 [D, Q] 的排序,则模型需要记住所有事实。如下图 1(左)所示。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

因此,本文首先从理论上形式化了数据排序如何影响内存需求,然后提出两种方法来减轻对数据排序的依赖,分别是 Just-read-twice(JRT)提示策略JRT 循环架构。本文主要分为以下几个部分展开:

理解数据排序的作用。研究者得出的第一个洞见是:记忆问题的 hardness 要降低到与设置剥离(set disjointness,SD)相同,这是通信复杂度理论中持续数十年的最典型问题。SD 要求一种流算法(比如循环模型)来决定上下文中提供的输入集是否剥离:

小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

理论分析和实验结果表明,第一个集 | A | 掌控了求解 SD 所需的内存。因果模型需要存储 A 中的所有元素以与 B 中的元素进行比较。这表明了,使用上下文中的「正确数据排序」(如将最小 min (|A|, |B|) 的集放在首位)将有助于内存受限的模型。更进一步,观察到上下文非因果逻辑的模型可在空间最小的 (|A|, |B|) 中求解 SD,而无需考虑数据排序。

其次是利用「正确的」排序。本文提出了一种非常简单的 JRT-Prompt 策略,在模型生成答案之前在上下文中将信息重复多次(如上图 1 右所示)。在第二以及更多轮次中,语言模型在决定存储哪些信息时要以完整的上下文为条件,从而有效避免了将数据排序「归正」的问题。

结果表明,JRT-Prompt 在 16 个已有循环语言模型和 6 项 ICL 任务上,实现了平均 11.0 ± 1.3 百分点的提升,而吞吐量是 FlashAttention-2(长度 32k、批大小 16)的 11.9 倍。JRT-Prompt 虽然增加了上下文长度,但渐进来看仍然比注意力更加地计算和内存高效。

超越因果模型。本文提出了 JRT-RNN,它的灵感来源于简单的 Prefix-LM 编码器解码器架构设计。大多数的上下文学习输入包含两部分内容,分别是输入的提示(上下文、指令)和作为输出的模型生成文本。在 Prefix-LM 架构中,LM 并没有遵循因果逻辑地处理提示区域,而对输出进行了因果解码,其中在因果区域仅使用了标准的下一个 token 预测损失,以及非因果区域上的损失。

不过遗憾的是,此前 Prefix-LM 模型的训练方法取得的成功有限,并使用了低效的 Transformer 主干。因此本文通过一些简单的改变来提高质量和效率,包括改进训练损失并使用称之为「Prefix Linear Attention,PLA」 的线性注意力公式。研究者发现,使用他们的 IO 感知实现,JRT-RNN 在 360m 和 1.3b 参数设置下,分别可以提供 13.7 和 6.9 百分点的平均质量改进,吞吐量是 FA2 的 19.2 倍。

小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

论文地址:https://arxiv.org/pdf/2407.05483

项目主页:https://github.com/HazyResearch/prefix-linear-attention

JRT-Prompt 方法概览

上下文学习任务以 (C, Q, Y) 作为输入,其中 C 为一些上下文来源(如文档或代码存储库),Q 为给定上下文时对模型的一些问题或请求,Y 为答案。对于使用自回归 LM A 的标准上下文学习,研究者输入 C 和 Q,并根据正确的完成情况 Y 来评估生成的输出 Yˆ = A (C, Q)。

JRT-Prompt 是一种极其简单的方法,在提示模型输出答案之前会在上下文中重复提示中的信息(如问题和文档),例如下图 1 右的 Yˆ = A (C, Q, C, Q)。因此,在上下文第二次出现时,模型根据完整的上下文来决定存储哪些信息。

小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

此外,JRT-Prompt 可以与现成的 LLM 一起使用。研究者在零样本提示下,在一系列记忆密集型上下文任务上评估了以下 LM:

Based 预训练 LM,参数规模为 1.3B,在 Pile 的 10 − 50B 个 token 上进行训练;

Mamba 预训练的 LM,参数规模为 130M、370M、1.4B 和 2.8B,在 Pile 的 300B 个 token 上进行训练;

Gated Linear Attention 预训练的 LM,参数规模为 1.3B 和 2.7B,在 SlimPajama 数据集的 100B 个 token 上进行训练;

Mamba-2 预训练的 LM,参数规模为 130M、370M、1.3B 和 2.7B,在 Pile 的 300B 个 token 上进行训练。

结果如下表 1 所示,通过增加状态(state)大小,研究者发现 JRT-Prompt 方法在各个模型和任务上平均带来了 11.0 ± 1.3 百分点的性能提升,利用该方法的 Based 模型平均优于利用标准提示的 Transformer 模型。

他们还发现,JRT-Prompt 可以使 Transformer 模型受益,并且该方法在一些任务上(附录 2)比少样本学习更加有效。值得注意的是,Springer 等人在论文《Repetition improves language model embeddings》中提出使用自回归 Transformer 模型来重复上下文以实现生成嵌入的目的,本文的研究结果也类似。研究者专注于亚二次架构和上下文学习任务。

小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

JRT-Prompt 虽然由于重复而增加了上下文长度,但是其使用的亚二次循环架构仍比使用二次 Transformer 模型更高效。研究者发现,在序列长度 N = 32768、批大小为 16 时,使用 JRT-Prompt(序列长度 2N)在英伟达 H100 上提供的吞吐量是 FlashAttention-2(序列长度 N)的 11.9 倍。

JRT-RNN:编码器 – 解码器循环架构

JRT-RNN 的灵感来自于 Prefix-LMs,但侧重于扩展质量 – 效率权衡空间的帕累托边界(Pareto frontier)。为了提高质量,JRT-RNN 在编码器端使用了单独的 k_e 和 v_e 映射,在解码器端使用了 k_d 和 v_d 映射。虽然 Prefix LM 模型对编码器和解码器区域使用了共享映射权重,但研究者发现使用两组映射可以提高质量。

爱派AiPy 爱派AiPy

融合LLM与Python生态的开源AI智能体

爱派AiPy 1 查看详情 爱派AiPy

为了提高效率,JRT-RNN 为编码器使用了非因果线性注意力,而为解码器使用标准因果线性注意力。研究者称为 Prefix Linear Attention(PLA)(图 1 右),公式如下:

小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

JRT-RNN 训练目标。Prefix LMs 通常不计算非因果区域的损失,而 JRT-RNN 将下一个 token 预测与掩码语言建模(MLM)目标进行了结合。并且对于添加的 MLM 目标,研究者用一个 [MASK] token 替换了来自编码器区域 {u_1, …, u_M} 的比例为 P 的 tokens,并在预测原始 token 时测量了交叉熵损失小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

损失如下:

小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

实验结果

在实验中,研究者评估了 JRT-RNN 在以下三个指标上的质量和效率:

上下文学习质量

整体语言建模

生成

上下文学习质量

如下表 2 所示,研究者发现,JRT-RNN 在参数为 360M(30B tokens)时比仅解码器的基线(Based)平均高出 13.7 个百分点,在参数为 1.3B(50B tokens)时平均高出 6.9 个百分点。

同时,JRT-RNN 在参数为 360M 和 1.3B 时与 Transformer++ 的差距分别缩小到了 0.5 个百分点和 1.9 个百分点之内。

在下表 3 中,研究者比较了当 prefill 长度 l 小于编码器长度 M 时,JRT-RNN 与同类推理策略的表现。

小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

整体自然语言理解

根据以往研究,研究者进一步将困惑度分为了两组:联想记忆「AR slice」包括了被称为「AR hits」的 tokens,它们需要模型按照顺序执行记忆以正确地预测下一个 token;而「Other slice」包含剩余的 tokens(如记忆的知识)。

对于记忆频率,JRT-RNN 在「AR slice」表现出色。对于训练期间不常见的二元组(即不太可能在模型参数中被记住的),JRT-RNN 的困惑度相对于 Based 和 Mamba 这两个强大的因果循环基线有所改善。

对于记忆距离,在「AR slice」中,JRT-RNN 与仅解码器基线之间的差距随着上下文中重复二元组的增加而扩大。这也进一步证明了 JRT-RNN 可以帮助完成更长的上下文记忆任务。

非记忆频率。对于训练期间很少见到的二元组的非记忆「Other slice」,JRT-RNN 的困惑度比仅解码器的 LM 更差。这是意料之中的结果,因为 JRT-RNN 计算了仅解码器 LM 的 65% tokens 的损失。

我们预计这一差距会随着规模和训练时间的延长而缩小(随着二元语法频率的增加而增加)(图 3,左上角)。

小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

生成吞吐量

生成可以分解为提示「prefill 处理」和解码「下一个 token 预测」两步。相较于标准的仅解码器循环模型,JRT-RNN 不会修改解码步骤,因此讨论重点在 prefill 阶段。

使用 Simran Arora 等人论文《Simple linear attention language models balance the recall-throughput tradeof》中提出的 Based CUDAn 内核,JRT-Prompt 在处理 prefill 时吞吐量分别是 FlashAttention-2 和 FLA Triton 内核的 11.9 和 13.7 倍,如下表 5 所示。

当研究者将批大小增加到 64 时,JRT-Prompt 吞吐量分别是 FlashAttention-2 和 FLA Triton 内核的 6.1 倍和 7.2 倍。

接下来他们扩展了 Based 内核以支持 JRT-RNN,并且证明了当将序列长度增加到 32768 时,吞吐量分别是 FlashAttention-2 和 FLA 的 19.2 倍和 22.0 倍。当将批大小增加到 64 时,JRT-RNN 分别又提供了 9.7 倍和 11.5 倍的吞吐量提升。JRT-RNN 所需的时间是 Based prefill 的 1.24 倍,比 JRT-Prompt 更加高效。

小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

更多技术细节和实验结果请参阅原论文。

以上就是小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/791456.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
centos6.5怎么进入root
上一篇 2025年11月26日 14:24:42
如何在iPhone上的Safari中禁用隐私浏览模式
下一篇 2025年11月26日 14:24:48

相关推荐

  • Python中如何实现解释器模式?

    解释器模式在python中用于创建特定领域的小型语言或dsl。实现步骤包括:1.定义抽象基类expression;2.实现具体表达式类如number、plus和multiply;3.构建表达式树并通过interpret方法计算结果。该模式适合dsl实现,但不常用,因python本身强大。 在Pyth…

    2026年5月10日
    000
  • 如何用 HTML 和 CSS 实现一个可展开的圆盘,并让每个子圆盘都可独立触发事件?

    html、css实现圆盘(类环形图) 实现一个圆盘,单击后会在圆周围弹出分开的六个圆盘,每个圆盘可以独立触发事件。 实现方法: 可以使用 transform 属性来旋转和倾斜元素,从而实现圆盘展开的效果。 立即学习“前端免费学习笔记(深入)”; 步骤: 创建一个主圆盘:使用 div 元素并应用圆形样…

    2026年5月10日
    000
  • 国内有哪些类似ThinkCMF的Python内容管理框架?

    Python世界里的ThinkCMF:有哪些可选框架? 学习Python的开发者,特别是熟悉PHP的ThinkCMF的用户,常常会寻找类似的Python内容管理框架(CMF)。ThinkCMF并非纯粹的框架,而是介于框架和CMS之间的方案,具备CMS核心功能并支持扩展。 Python生态中没有与Th…

    2026年5月10日
    000
  • JavaScript数据重塑:将数组对象转换为图表友好的JSON格式

    本教程详细介绍了如何将常见的数组对象结构(记录导向)转换为更适合前端图表库使用的特定JSON格式(列导向和系列导向)。通过运用JavaScript的Array.prototype.map()方法,我们能够高效地提取并重塑数据,使其满足动态图表展示的需求,从而克服因数据格式不兼容导致的库限制。 1. …

    2026年5月10日
    100
  • 百度热搜排名爬取:为何使用pop()后列表元素索引位置的值会改变?

    Python列表操作中的索引变化问题 在使用requests和lxml库爬取百度热搜排名时,如果使用pop()方法移除列表元素,可能会遇到索引值变化的问题。这与Python列表的可变性有关。 以下代码片段展示了这个问题: import requestsfrom lxml import etree# …

    2026年5月10日
    000
  • c++怎么实现图的深度优先搜索(DFS)_c++图遍历DFS算法实现

    图的深度优先搜索从起始顶点开始沿路径深入访问,使用邻接表和递归或栈实现;需标记访问状态避免重复,对不连通图需多次调用DFS以遍历所有节点。 图的深度优先搜索(DFS)是一种用于遍历或搜索图中节点的算法。它从一个起始顶点开始,沿着一条路径尽可能深入地访问未访问过的邻接点,直到无法继续前进,再回溯并尝试…

    2026年5月10日
    200
  • React Hooks实现可拖拽组件:声明式渲染与事件处理指南

    本教程深入探讨了在React中使用Hooks创建可拖拽组件的正确方法。我们将分析直接操作DOM的常见陷阱,例如导致拖拽功能无法在首次尝试时生效的问题,并详细介绍如何利用React的声明式特性和事件系统,通过JSX直接绑定拖拽事件,实现流畅、响应式的拖拽体验。内容涵盖关键的HTML5拖拽属性、Reac…

    2026年5月10日
    000
  • JavaScript中高效移除指定CSS类名DOM元素的方法

    本教程详细探讨了在javascript中高效移除具有特定css类名的dom元素的方法。我们将介绍传统removechild方法的潜在复杂性,并重点推荐使用现代且简洁的element.prototype.remove()方法。通过具体的表格行移除示例,文章将指导读者如何利用该方法清空动态生成的ui组件…

    2026年5月10日
    000
  • NPM包发布指南:如何正确处理模块间依赖,避免本地tgz文件路径问题

    当发布NPM包时,在`package.json`中使用`file:`协议引用本地`.tgz`依赖是不被支持的。这种做法会导致消费者在安装该包时遇到`package not found`或`ENOENT`等错误,因为NPM期望从注册表解析依赖,而非处理发布包中的本地文件路径。为确保模块正确安装,所有依…

    2026年5月10日
    000
  • 什么是Worldcoin (WLD)?是AI革命还是隐私噩梦?WLD未来前景深度剖析

    Worldcoin的核心是通过Orb虹膜扫描实现人格证明,构建全球身份与金融网络。用户验证后获World ID并领取WLD代币,旨在推动Web3发展及未来全民基本收入。其机遇在于可能成为数字身份标准,但面临虹膜数据隐私、中心化控制、监管限制和伦理争议等挑战,发展前景取决于技术与伦理的平衡。 Worl…

    2026年5月10日
    000
  • Golang开发基础学生信息管理系统

    答案:通过分层架构设计,使用Gin框架处理API请求,结合database/sql与MySQL交互,定义Student结构体作为数据模型,并利用接口实现解耦,确保系统的可维护性与扩展性。 搭建一个基于Golang的学生信息管理系统,核心在于利用其简洁的语法、强大的并发特性和丰富的标准库,快速实现数据…

    2026年5月10日
    000
  • Debian Postman如何发送群发邮件

    Postman 并没有内置的直接发送邮件的功能,不过你可以通过连接 SMTP 服务器来实现通过 Postman 发送带附件的电子邮件。如果你希望使用 Postman 实现群发邮件操作,可以尝试以下几种方式: 利用命令行工具:在 Debian 系统中,你可以借助 mailx 或 sendmail 这类…

    2026年5月10日
    000
  • html5文件如何实现上传权限验证 html5文件JWT令牌的携带方式

    首先前端登录获取JWT并存储,再通过XMLHttpRequest或Fetch API在上传文件时携带Authorization头发送令牌;服务端需解析并验证JWT签名、有效期及权限,确认无误后处理文件上传请求。 如果需要在HTML5中实现文件上传时的权限验证,并通过JWT令牌确保请求的安全性,必须在…

    2026年5月10日
    000
  • C++中的type traits是什么?C++模板元编程类型判断技巧【高级模板】

    type traits 是 C++ 编译期类型查询与变换工具,属模板元编程基石,支撑 SFINAE、constexpr if 和 Concepts;提供约 100 个标准 trait,用于判断(如 is_pointer_v)、转换(如 decay_t)及自定义探测,C++14 起推荐变量模板形式,C…

    2026年5月10日
    000
  • Golang模块初始化与go.mod文件配置实践

    Go语言从1.11引入模块机制,通过go.mod实现依赖管理;执行go mod init创建模块,自动生成go.mod文件;该文件包含module、go、require等核心指令,分别定义模块路径、Go版本和依赖项;实际开发中常用go mod tidy整理依赖,replace替换私有库,exclud…

    2026年5月10日
    000
  • c++中如何保存map到文件_c++ map文件保存方法

    C++中map需序列化后保存,常用方法有:1. 文本格式逐行写入键值对,适合调试;2. 二进制格式适用于固定长度类型,需先写大小再逐项写入;3. Boost.Serialization支持复杂类型,使用归档机制自动序列化;4. JSON格式通过nlohmann/json库转换,可读性强且跨平台。选择…

    2026年5月10日
    000
  • C++如何进行代码格式化_使用Clang-Format统一C++项目代码风格的配置

    Clang-Format 可统一 C++ 代码风格,支持通过包管理器安装,生成 .clang-format 配置文件并选择或自定义格式规则,如 IndentWidth、ColumnLimit 等;可用于格式化单个或多个文件,结合 Git pre-commit 脚本自动格式化提交的代码,并与 VS C…

    2026年5月10日
    000
  • 灵感墨水

    标题:利用 InspireInk 释放您的创造力:您的人工智能写作伴侣 写作有时感觉像是一次孤独的旅程,但如果你有一个同伴来引导你度过情节曲折、人物弧线和风格灵感呢?隆重推出 InspireInk,这是一款功能强大的人工智能驱动工具,专为想要提升手艺并将故事变为现实的作家而设计。 什么是 Inspi…

    2026年5月10日
    000
  • 使用 Nextra 生成文档站点

    在本文中,您将了解如何使用 nextra 生成静态文档站点,我们还提供了一个示例。 使用 nextra,您可以使用 next.js 和 mdx 制作精美的网站。 nextra docs 提供了两种选项,一种用于文档,另一种用于博客。 使用 nextra 手动配置 nextra 很简单。您安装软件包,…

    2026年5月10日
    000
  • Python自定义类实现集合行为:__getitem__与继承策略

    本文深入探讨了在python中如何让自定义类表现得像内置的列表、元组或字典。通过实现特定的特殊方法(如`__getitem__`和`__setitem__`)或利用继承机制,开发者可以赋予自定义对象索引、切片和迭代等集合特性,从而提升代码的灵活性和可读性。文章将通过具体示例,详细阐述两种实现策略及其…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信