网友盛赞：Transformer引领年度论文的简化版本来了

程序猿 • 2025年11月7日 19:00:13 • 用户投稿 • 阅读 1

从大模型的根源开始优化。

transformer 架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度 transformer 架构的一种简单方法是将多个相同的 transformer 「块」（block）依次堆叠起来，但每个「块」都比较复杂，由许多不同的组件组成，需要以特定的排列组合才能实现良好的性能。

自从 2017 年 Transformer 架构诞生以来，研究者们基于其推出了大量衍生研究，但几乎没有改动过 Transformer 「块」。

那么问题来了，标准 Transformer 块是否可以简化？

在最近的一篇论文中，来自 ETH Zurich 的研究者讨论了如何在不影响收敛特性和下游任务性能的情况下简化 LLM 所必需的标准 Transformer 块。基于信号传播理论和经验证据，他们发现可以移除一些部分，比如残差连接、归一化层（LayerNorm）、投影和值参数以及 MLP 序列化子块（有利于并行布局），以简化类似 GPT 的解码器架构以及编码器式 BERT 模型。

研究者探讨了在不影响训练速度的情况下，是否可以移除涉及的组件，并对Transformer块进行哪些架构修改。

论文链接：https://arxiv.org/pdf/2311.01906.pdf

Lightning AI 创始人、机器学习研究者 Sebastian Raschka 将这项研究称为自己的「年度最爱论文之一」：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

但也有研究者质疑：「这很难评，除非我看过完整的训练过程。如果没有归一化层，也没有残差连接，如何能在大于 1 亿参数的网络中进行扩展？」

Sebastian Raschka 表示赞同：「是的，他们试验的架构相对较小，这是否能推广到数十亿参数的 Transformer 上还有待观察。」但他仍然表示这项工作令人印象深刻，并认为成功移除残差连接是完全合理的（考虑到其初始化方案）。

对此，图灵奖得主 Yann LeCun 的评价是：「我们仅仅触及了深度学习架构领域的皮毛。这是一个高维空间，因此体积几乎完全包含在表面中，但我们只触及了表面的一小部分。」

为什么需要简化 Transformer 块？

研究者表示，在不影响训练速度的前提下简化 Transformer 块是一个有趣的研究问题。

首先，现代神经网络架构设计复杂，包含许多组件，而这些不同组件在神经网络训练动态中所扮演的角色，以及它们之间如何相互作用，人们对此尚不清楚。这个问题事关深度学习理论与实践之间存在的差距，因此非常重要。

信号传播理论（Signal propagation）已被证明具有影响力，因为它能够激励深度神经网络架构中的实际设计选择。信号传播研究了初始化时神经网络中几何信息的演化，通过跨输入的分层表征的内积来捕捉，在训练深度神经网络方面取得了许多令人印象深刻的成果。

然而，目前该理论只考虑初始化时的模型，而且往往只考虑初始前向传递，因此无法揭示深度神经网络训练动态的许多复杂问题，例如残差连接对训练速度的助益。虽然信号传播对修改动机至关重要，但研究者表示，他们不能仅从理论上就得出简化的 Transformer 模块，还要依靠经验见解。

在实际应用方面，考虑到目前训练和部署大型 Transformer 模型的高昂成本，Transformer 架构的训练和推理流水线的任何效率提升都代表着巨大的潜在节约意义。如果能够通过移除非必要组件来简化 Transformer 模块，既能减少参数数量，又能提高模型的吞吐量。

这篇论文也提到，移除残差连接、值参数、投影参数和序列化子块之后，可以同时做到在训练速度和下游任务性能方面与标准 Transformer 相匹配。最终，研究者将参数量减少了 16%，并观察到训练和推理时间的吞吐量增加了 16%。

如何简化 Transformer 块？

研究者结合信号传播理论和经验观察，介绍了如何从 Pre-LN 模块出发，生成最简单的 Transformer 块（如下图）。

在论文第四章的每一个小节，作者分别介绍了如何在不影响训练速度的情况下每次删除一个块组件。

这一部分的所有实验都在 CodeParrot 数据集上使用了一个 18-block 768-width 的因果仅解码器类 GPT 模型，这个数据集足够大，因此当作者处于单个训练 epoch 模式时，泛化差距非常小（见图 2），这使得他们可以专注于训练速度。

删除残差连接

研究者首先考虑删除注意力子块中的残差连接。在公式（1）的符号中，这相当于将 α_SA 固定为 0。简单地移除注意力残差连接会导致信号退化，即秩崩溃（rank collapse），从而导致可训练性差。在论文 4.1 部分，研究者详细解释了他们的方法。

删除投影 / 值参数

从图 3 中可以得出结论，完全移除值和投影参数 W^V、W^P 是可能的，而且每次更新的训练速度损失最小。也就是说，当 β_V = β_P = 0 和 identity 初始化的

论论App

AI文献搜索、学术讨论平台，涵盖了各类学术期刊、学位、会议论文，助力科研。

23 查看详情

时，在相同的训练步数后，本研究基本上能达到 Pre-LN 块的性能。在这种情况下，在整个训练过程中都有 W^V = W^P = I，即值和投影参数是一致的。作者在 4.2 节介绍了详细方法。

删除 MLP 子块残差连接

与上述几个模块相比，删除 MLP 子块残差连接要更具挑战性。与之前的研究一样，作者发现，在使用 Adam 时，如果没有 MLP 残差连接，通过信号传播使激活更加线性仍会导致每次更新训练速度的显著下降，如图 22 所示。

他们还尝试了 Looks Linear 初始化的各种变体，包括高斯权重、正交权重或恒等权重，但都无济于事。因此，他们在整个工作中使用标准激活（例如 ReLU）和 MLP 子块中的初始化。

作者转向并行 MHA 和 MLP 子块的概念，这在几个近期的大型 transformer 模型中已被证明很受欢迎，例如 PALM 和 ViT-22B。并行 transformer 块如下图所示。

作者在论文 4.3 节详细介绍了移除 MLP 子块残差连接的具体操作。

删除归一化层

最后一个被删除的是归一化层，这样就得到了图 1 右上角的最简块。从信号传播初始化的角度来看，作者可以在本节简化的任何阶段移除归一化层。他们的想法是，Pre-LN 块中的归一化会隐式地降低残差分支的权重，而这种有利的效果可以通过另一种机制在没有归一化层的情况下复制：要么在使用残差连接时明确降低残差分支的权重，要么将注意力矩阵偏向 identity / 将 MLP 非线性转化为「更」线性。

由于作者在修改过程中考虑到了这些机制（如降低 MLP β_FF 和 Shaped Attention 的权重），因此无需进行归一化处理。作者在第 4.4 节介绍了更多信息。

实验结果

深度扩展

鉴于信号传播理论通常关注很大的深度，而这种情况下通常会出现信号退化。因此一个很自然的问题就是，本文的简化 transformer 块所提高的训练速度是否也能扩展到更大的深度？

从图 6 中可以观察到，将深度从 18 个块扩展到 72 个块后，本研究的模型和 Pre-LN transformer 的性能都得到了提高，这表明本研究中的简化模型不仅训练速度更快，而且还能利用更大的深度所提供的额外能力。事实上，在使用归一化时，本研究中的简化块和 Pre-LN 的每次更新轨迹在不同深度下几乎没有区别。

BERT

接下来，作者展示了他们的简化块性能除了适用于自回归解码器之外，还适用于不同的数据集和架构，以及下游任务。他们选择了双向仅编码器 BERT 模型的流行设置，用于掩蔽语言建模，并采用下游 GLUE 基准。

如图 7 所示，在 24 小时运行时内，与（Crammed）Pre-LN 基线相比，本研究的简化块可以媲美掩蔽语言建模任务的预训练速度。另一方面，在不修改值和投影的情况下删除残差连接再次导致训练速度的显著下降。在图 24 中，作者提供了 microbatch 步骤的等效图。

此外，在表 1 中，研究者发现他们的方法在 GLUE 基准上经过微调后，性能与 Crammed BERT 基准相当。

他们在表 2 中对下游任务进行了细分。为了进行公平比较，他们使用了与 Geiping & Goldstein (2023) 相同的微调协议（5 个 epoch、各任务超参数恒定、dropout regularisation）。

效率提升

在表 1 中，研究者还详细列出了使用不同 Transformer 块的模型在掩蔽语言建模任务中的参数数量和训练速度。他们以预训练 24 小时内所采取的 microbatch 步骤数与基线 Pre-LN Crammed BERT 的比率计算了速度。结论是，模型使用的参数减少了 16%，SAS-P 和 SAS 的每次迭代速度分别比 Pre-LN 块快 16% 和 9%。

可以注意到，在这里的实现中，并行块只比 Pre-LN 块快 5%，而 Chowdhery et al.（2022 ）观察到的训练速度则快 15%，这表明通过更优化的实现，整个训练速度有可能进一步提高。与 Geiping & Goldstein（2023 年）一样，此处实现也使用了 PyTorch 中的自动算子融合技术 (Sarofeen et al., 2022)。

更长的训练

最后，考虑到当前在更多数据上长时间训练较小模型的趋势，研究者讨论了简化块在长时间训练后是否仍能达到 Pre-LN 块的训练速度。为此，他们在 CodeParrot 上使用图 5 中的模型，并使用 3 倍 token 进行训练。准确地说，是在批大小为 128、序列长度为 128 的情况下进行了约 120K 步（而不是 40K 步）的训练，这将导致约 2B 个 token。

从图 8 可以看出，当使用更多的 token 进行训练时，简化的 SAS 和 SAS-P 代码块的训练速度仍然与 PreLN 代码块相当，甚至优于 PreLN 代码块。

更多研究细节，可参考原论文。

以上就是网友盛赞：Transformer引领年度论文的简化版本来了的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/441838.html

type 工程

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

百度地图实时路况更新慢怎么办

上一篇 2025年11月7日 19:00:12

Swoole如何支持高并发的数据同步

下一篇 2025年11月7日 19:00:16

用户投稿

typescript用来干嘛_typescript的作用

TypeScript 是一种用于构建大型复杂应用程序的开源编程语言，它扩展了 JavaScript 的功能，具有以下作用：类型系统：编译时检查类型错误，提高代码可靠性。面向对象编程特性：支持类、接口、抽象类，增强代码组织性和维护性。模块系统：分解程序为可重用模块，提升可维护性和可扩展性。全面的类型推…

程序猿
2026年5月10日
0000
用户投稿

如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

使用HTML构建标签结构，CSS3添加旋转与过渡效果，JavaScript生成随机HSL颜色并设置字体大小，实现动态交互的标签云组件。要在网页中实现一个动态的标签云组件，结合 HTML、CSS3 变换和随机颜色生成算法，可以按照以下步骤操作。这个组件不仅能提升页面视觉效果，还能通过色彩和旋转增加交…

程序猿
2025年12月23日
0000
用户投稿

如何在Go Gin应用中集成前端JavaScript模块（如Sentry）

本文探讨了在Go Gin框架下，通过HTML模板服务前端页面时，如何有效集成JavaScript模块（如Sentry）。针对浏览器不直接支持Node.js模块导入语法的问题，文章详细阐述了利用CDN引入Sentry SDK的解决方案，并提供了具体的代码示例，帮助开发者实现前端错误监控功能，避免了复杂…

程序猿
2025年12月23日
1000
用户投稿

html官网浏览入口_html网站设计免费平台

html官网浏览入口在https://www.codepen.io，该平台支持实时预览代码、创建Pen项目、Fork开源示例，可添加外部资源，具备点赞评论收藏等社区互动功能，设有挑战活动与作品集分类，开放API接口，界面简洁适合初学者，在线编写无需配置环境，支持多种预处理器和响应式测试。 html官…

程序猿
2025年12月23日
0000
用户投稿

html如何修改日期样式

在html中，可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式，只需要用该选择器选中元素，在设置具体样式即可，具体语法为“::-webkit-datetime-edit{属性:属性值}”。本教程操作环境：windows7系统、CSS3&&HTML…

程序猿
2025年12月21日
1000
用户投稿

单选框的type属性值为什么

单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型；值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。本教程操作环境：windows7系统、HTML5版、Dell G3电脑。在HTML中，…

程序猿
2025年12月21日
0000
用户投稿

HTML中type是什么意思

在HTML中，type是类型的意思，是一个标签属性，主要用于定义标签元素的类型或文档（脚本）的MIME类型；例在input标签中type属性可以规定input元素的类型，在script标签中type属性可以规定脚本的MIME类型。本教程操作环境：windows7系统、html5版、Dell G3电…

程序猿
2025年12月21日
0000
HTML中ul标签如何去掉点？HTML无序列表的样式实例解析

本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉，还有关于html的无序列表ul标签的样式解释，给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的：大家应该都使用过ul无序列表标签，ul…

程序猿
2025年12月21日 • 用户投稿
0000
html中的ol标签如何去掉标号呢？标签的使用方法总结

本篇文章介绍了html的ol标签是怎么去掉序号标号的，这里还有代码的详细解释，还有介绍了关于html ol有序列表标签如何更改序号，下文介绍了三种序号，大家也可以自己去想填写怎样的序号。现在来看这篇文章吧一、我们先看看html中的ol标签是如何去掉标号的呢：我们都知道html的ol标签是个有序列…

程序猿
2025年12月21日 • 用户投稿
0000
用户投稿

HTML ul标签的什么意思？HTML ul标签的作用详解

本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法，还有关于html ul标签的解释，包含li标签的还有type属性对ul标签的使用情况，好了，下面大家一起来看文章吧首先让我们先来解释一下HTML ul标签的意思： ul标签定义的是表格当中无序列表，表格当中的无序列表都是在标签之中…

程序猿
2025年12月21日
0000
用户投稿

javascript框架和库是什么_如何选择React、Vue或Angular？

JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构；React是UI组件库，生态灵活但需自行整合工具；Vue渐进式易上手，兼顾原型与工程化；Angular是全功能TypeScript框架，适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合，用来简化前端开发——…

程序猿
2025年12月21日
0000
用户投稿

React应用生产环境环境变量配置深度指南

本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题，深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码，指导开发者正确配置和使用环境变量，解决api调用层面的`null`响应问题，确保应用在生产环境下的稳定运行。在React应用开发中，环境变量（如API密钥…

程序猿
2025年12月21日
0000
用户投稿

JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

JSDoc是一种JavaScript结构化注释规范，通过@param、@returns等标签描述代码元素，并借助工具生成HTML文档，结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解（Annotation）像Java那样的语法，但通过约定的注释格式和配套工具，可…

程序猿
2025年12月21日
0000
用户投稿

JS注解怎么标注联合类型_ JS联合类型的注解书写与使用技巧

在JavaScript中可通过JSDoc使用联合类型注解，如string|number表示多类型支持，结合@param、@typedef等标签提升代码可读性与编辑器提示，适用于函数参数、返回值等场景。在JavaScript中，虽然原生不支持类型注解，但在使用JSDoc配合现代编辑器（如VS Cod…

程序猿
2025年12月21日
0000
用户投稿

VS Code主题开发：告别JSON，拥抱脚本化生成

vs code主题扩展最终需json格式定义，但开发者可通过javascript或typescript等脚本语言生成此json文件。这种方法有效解决了大型json文件难以维护、不支持注释等问题，并能实现颜色动态计算，显著提升主题开发的灵活性与效率。为什么选择脚本化生成VS Code主题？在开发V…

程序猿
2025年12月20日
0000
用户投稿

如何用Quasar框架开发一个跨平台应用？

Quasar基于Vue.js用一套代码构建多平台应用，支持响应式网站、PWA、移动App和桌面应用。通过quasar create创建项目，利用模式（SPA、PWA、Electron等）切换目标平台，使用Quasar组件库编写通用UI，配合Pinia管理状态，最后通过不同构建命令发布到各平台，实现高…

程序猿
2025年12月20日
0000
用户投稿

怎么利用JavaScript进行前端代码覆盖率统计？

答案：利用JavaScript进行前端代码覆盖率统计的核心是通过Istanbul/nyc等工具对代码插桩，结合测试框架收集执行数据并生成报告。具体流程包括：在代码执行前通过Babel或Webpack插件（如babel-plugin-istanbul）插入计数器实现插桩；运行测试时记录哪些代码被执行；…

程序猿
2025年12月20日
1000
用户投稿

typescript中的参数分享

TypeScript 中的参数共享允许组件间共享参数，实现跨组件状态维护和数据变更共享。通过 @Input 装饰器传递父组件参数，使用 @Output 装饰器定义子组件事件，以便在子组件状态改变时通知父组件。参数共享提高复用性，简化状态管理，允许子组件向父组件发出通知，但应谨慎使用，避免大量数据共享…

程序猿
2025年12月19日
0000
用户投稿

手机如何运行typescript方法

要在手机上运行 TypeScript 方法，可以使用 TypeScript 编译器或第三方库：TypeScript 编译器：将 TypeScript 代码编译成 JavaScript，然后集成到移动应用程序中。第三方库：如 React Native 或 NativeScript，允许使用 Typ…

程序猿
2025年12月19日
0000
用户投稿

TypeScript基本用法和语法

TypeScript 是一种具有类型系统的 JavaScript 超集，提供以下特性：类型注解：确保变量、函数和类的类型一致。接口：定义方法和属性，供类实现。枚举：提供命名常量集。泛型：创建可重用且类型安全的组件。 TypeScript 基本用法和语法 TypeScript 是一种超集 JavaSc…

程序猿
2025年12月19日
0000

发表回复

登录后才能评论

网友盛赞：Transformer引领年度论文的简化版本来了

关于作者

相关推荐

发表回复