Meta无限长文本大模型来了：参数仅7B，已开源

程序猿 • 2025年11月26日 16:44:06 • 用户投稿 • 阅读 1

谷歌之后，Meta 也来卷无限长上下文。

transformers的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力力和状态空间模型等次二次解决方案，但从以往经验来看，它们在预训练效率和下游任务准确性方面表现不佳。

近日，谷歌提出的Infini-Transformer引入了有效方法，可以将基于Transformer的大型语言模型（LLM）扩展到无限长输入，而不增加存储和计算需求，吸引了人们的关注。

几乎就在同时，Meta 也提出了一种无限长文本技术。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2404.08801.pdf

论文标题：MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length

代码：https://github.com/XuezheMax/megalodon

在4月12日提交的一篇论文中，来自Meta、南加州大学、CMU、UCSD等机构引入了MEGALODON，一种用于高效序列建模的神经架构，上下文长度不受限制。

MEGALODON进一步发展了MEGA（带有门控注意力的指数移动平均）的结构，并引入了多种技术组件来提高其能力和稳定性，包括复数指数移动平均（CEMA）、时间步归一化层、归一化注意力机制和具有两个特征的预归一化（pre-norm）残差连接。

在与 LLAMA2 的直接比较中，MEGALODON 在 70 亿参数和 2 万亿训练 token 的规模上取得了比 Transformer 更好的效率。MEGALODON 的训练损失达到 1.70，处于 LLAMA2-7B (1.75) 和 13B (1.67) 之间。MEGALODON 相对于 Transformers 的改进在不同任务和模式的一系列基准测试中表现强劲。

MEGALODON 本质上是一种改进的 MEGA 架构（Ma et al., 2023），它利用了门控注意力机制和经典指数移动平均（EMA）方法。为了进一步提高 MEGALODON 在大规模长上下文预训练方面的能力和效率，作者提出了多种技术组件。首先，MEGALODON 引入了复数指数移动平均 (CEMA) 组件，将 MEGA 中的多维阻尼 EMA 扩展到复数域。其次，MEGALODON 提出了时间步长归一化层，它将组归一化层推广到自回归序列建模任务，以允许沿顺序维度进行归一化。

为了提高大规模预训练的稳定性，MEGALODON 进一步提出了归一化注意力，以及通过修改广泛采用的预归一化和后归一化方法而具有两跳残差配置的预归一化。通过简单地将输入序列分块为固定块，如 MEGA-chunk 中所做的那样，MEGALODON 在模型训练和推理中实现了线性计算和内存复杂性。

在与 LLAMA2 的直接比较上，控制了数据和计算的同时，MEGALODON-7B 在训练困惑度方面显著优于用于训练 LLAMA2-7B 的最先进的 Transformer 变体。在对长上下文建模的评估上，包括高达 2M 的各种上下文长度中的困惑度以及 Scrolls 中的长上下文 QA 任务证明了 MEGALODON 对无限长度序列进行建模的能力。中小型基准的其他实验结果，包括 LRA、ImageNet、Speech Commands、WikiText-103 和 PG19 证明了 MEGALODON 在体量和多模态上的能力。

方法介绍

首先，文章简单回顾了 MEGA（ Moving Average Equipped Gated Attention ）架构中的关键组件，并讨论了 MEGA 中存在的问题。

MEGA 将 EMA（ exponential moving average ）组件嵌入到注意力矩阵的计算中，以纳入跨时间步长维度的归纳偏差。具体而言，多维阻尼 EMA 首先通过扩展矩阵将输入序列 X 的每个维度单独扩展为 h 维，然后将阻尼 EMA 应用于 h 维隐藏空间。形式如下：

为了降低全注意力机制中的二次复杂度，MEGA 简单地将 (14-16) 中的查询、键和值序列拆分为长度为 c 的块。(17) 中的注意力单独应用于每个块，产生线性复杂度 O (kc^2 ) = O (nc)。

从技术上讲，MEGA 中的 EMA 子层有助于捕获每个 token 附近的本地上下文信息，从而缓解了在超出块边界的上下文中丢失信息的问题。尽管 MEGA 取得了令人深刻的印象，但面临如下问题：

i）由于 MEGA 中 EMA 子层的表达能力有限，具有块级注意力的 MEGA 性能仍然落后于全注意力 MEGA。

ii) 对于不同的任务、数据类型，最终的 MEGA 架构可能存在架构差异，例如，不同的归一化层、归一化模式和注意力函数 f (・) 。

iii) 没有经验证据表明 MEGA 可扩展用于大规模预训练。

CEMA：将多维阻尼 EMA 扩展到复数域

为了解决 MEGA 面临的问题，该研究提出了 MEGALODON。

具体而言，他们创造性地提出了复指数移动平均 CEMA（ complex exponential moving average ），将上式（1）改写为如下形式：

并将（2）中的 θ_j 参数化为：

时间步（Timestep）归一化

尽管层归一化与 Transformer 相结合的性能令人印象深刻，但很明显，层归一化不能直接减少沿空间维度（也称为时间步长或序列维度）的内部协变量偏移。

在 MEGALODON 中，该研究通过计算累积均值和方差将组归一化扩展到自回归情况。

图 2 说明了层归一化和时间步标准化。

代码小浣熊

代码小浣熊是基于商汤大语言模型的软件智能研发助手，覆盖软件需求分析、架构设计、代码编写、软件测试等环节

396 查看详情

MEGALODON 中的归一化注意力

此外，该研究还提出了专门为 MEGA 定制的归一化注意力机制，以提高其稳定性。形式如下：

则上式 (17) 中的注意力操作改为：

具有 Two-hop 残差的预范数（Pre-Norm）

通过调查发现，扩大模型大小会造成预归一化不稳定问题。基于 Transformer 块的预归一化可以表示为（如图 3 (b) 所示）：

在原始 MEGA 架构中，将 φ (19) 用于门控残差连接 (21) 以缓解此问题。然而，更新门 φ 引入了更多的模型参数，当模型规模扩大到 70 亿时，不稳定问题仍然存在。MEGALODON 引入了一种名为 pre-norm 的新配置，具有 two-hop 残差，它只是简单地重新排列每个块中的残差连接，如图 3（c）所示：

实验

为了评估 MEGALODON 在长上下文序列建模上的可扩展性和效率，本文将 MEGALODON 扩展到 70 亿规模大小。

LLM 预训练

为了提高数据效率，研究者在训练过程中显示了 MEGALODON-7B、LLAMA2-7B 和 LLAMA2-13B 的负对数似然 (NLL)，如图 1 所示。

在相同数量的训练 token 下，MEGALODON-7B 获得了比 LLAMA2-7B 明显更好（更低）的 NLL，表现出更好的数据效率。

图 4 说明了分别使用 4K 和 32K 上下文长度的 LLAMA2-7B 和 MEGALODON-7B 在每个设备上的平均 WPS（ word/token per second ）。对于 LLAMA2 模型，该研究使用 Flash-Attention V2 加速全注意力的计算。在 4K 上下文长度下，由于引入了 CEMA 和时间步归一化，MEGALODON-7B 比 LLAMA2-7B 稍慢（约 6%）。当将上下文长度扩展到 32K 时，MEGALODON-7B 明显比 LLAMA2-7B 快（约 32%），这证明了 MEGALODON 对于长上下文预训练的计算效率。

短上下文评估

表 1 总结了 MEGALODON 和 LLAMA2 在学术基准上的结果，以及其他开源基础模型，包括 MPT、RWKV 、Mamba 、 Mistral 和 Gemma 的比较结果。在相同的 2T token 上进行预训练后，MEGALODON-7B 在所有基准测试中均优于 LLAMA2-7B。在某些任务上，MEGALODON-7B 的性能与 LLAMA2-13B 相当甚至更好。

长上下文评估

图 5 显示了验证数据集在 4K 到 2M 各种上下文长度下的困惑度 (PPL)。可以观察到 PPL 随着上下文长度单调下降，验证了 MEGALODON 在建模极长序列方面的有效性和鲁棒性。

指令微调

表 3 总结了 7B 模型在 MT-Bench 上的性能。与 Vicuna 相比，MEGALODON 在 MT-Bench 上表现出优越的性能，并且与 LLAMA2-Chat 相当，而后者利用 RLHF 进行了进一步的对齐微调。

中等规模基准评估

为了评估 MEGALODON 在图像分类任务上的性能，该研究在 Imagenet-1K 数据集上进行了实验。表 4 报告了验证集上的 Top-1 准确率。MEGALODON 的准确率比 DeiT-B 提高了 1.3%，比 MEGA 提高了 0.8%。

表 5 说明了 MEGALODON 在 PG-19 上的字级困惑度 (PPL)，以及与之前最先进的模型，包括 Compressive Transformer 、Perceiver AR、Perceiver AR、块循环 Transformer 和 MEGABYTE 等的对比。MEGALODON 性能明显领先。

更详细内容请参考论文原文。

以上就是Meta无限长文本大模型来了：参数仅7B，已开源的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/798019.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

漫漫漫画官网直达入口_漫漫漫画网页在线看

上一篇 2025年11月26日 16:44:05

Word2016文本框文字样式设置

下一篇 2025年11月26日 16:44:11

好文分享

如何利用BFC和inline-block解决兄弟元素间margin塌陷问题？

BFC清除兄弟元素间margin塌陷原理 margin塌陷问题当相邻的块级元素垂直排列，它们的margin可能会塌陷并重叠，称为margin塌陷。 BFC清除margin塌陷清除margin塌陷的一种常见方法是将下方元素包裹在一个新的块级格式化上下文（BFC）中，因为BFC之间不会相互影响。 d…

程序猿
2025年12月24日
6000
好文分享

如何优化CSS Grid布局中子元素排列和宽度问题？

css grid布局中的优化问题在使用css grid布局时可能会遇到以下问题：问题1：无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%)，这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时，它们…

程序猿
2025年12月24日
9000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
5000
好文分享

面板翻页显示16张图片和信息，如何实现模块靠左显示并按行排列？

如何在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。已知信息：图片和信息使用json数据定义。使用paginationbyjs函数进行分页。使…

程序猿
2025年12月24日
3000
好文分享

如何在面板上翻页显示16个图片和信息，并实现模块靠左显示、内容按行排列？

如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。答案：要将div内的模块靠左显示，并按行排列模块内容，可以使用以下方式：给div容器添加flexbox属性： #list {…

程序猿
2025年12月24日
0000
好文分享

如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果中间部分里面的图片，文字显示在图片下方第二页图片靠左显示以上就是如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？的…

程序猿
2025年12月24日
0000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
1000
好文分享

如何让 div 内的模块靠左显示，模块内容按行排列，并在面板上实现翻页展示？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果 css 代码： #List { display: flex; flex-wrap: wrap;}#List > div { text…

程序猿
2025年12月24日
0000
好文分享

如何使用 CSS Grid 布局实现固定头部和动态渲染的子元素布局？

如何实现固定布局和遍历 div？如图所示，第一个 div 固定在页面顶部，后四个 div 通过 for 循环动态渲染在下方。询问如何实现此布局，以及是否有更好的解决方案。解决方案： grid 布局立即学习“前端免费学习笔记（深入）”； grid 布局非常适合解决此问题： html 代码：固定…

程序猿
2025年12月24日
0000
好文分享

Flex 布局中，padding-right 为何无效？

在 flex 布局中，padding-right 为何无效？在使用 flex 布局时，当父元素设置了 padding-right，而内部元素纵向排列且高度固定，并允许横向滑动时，padding-right 可能不起作用。解决此问题的一个方法是修改父元素的 width 属性。将 width: 10…

程序猿
2025年12月24日
2000
好文分享

如何用 CSS 实现固定布局和遍历生成的 DIV，使其第一个固定不动，剩余的以 1234 顺序排列？

如何实现固定布局和遍历div 如图所示，大的div固定在第一个位置，而标有1234的div则是通过for循环生成的。能否实现这样的布局，或者有更好的解决方案？解决方案：要实现这样的布局，推荐使用grid布局，它可以完美地解决这个问题。立即学习“前端免费学习笔记（深入）”；布局如下：第一个d…

程序猿
2025年12月24日
0000
如何用CSS Grid布局实现首个div固定位置，其他div自动排列？

css布使用固定布局和遍历div 如图所示，有一个大的div固定在第一个位置，里面有若干个通过for循环生成的div，编号为1、2、3、4。解决方案使用css的grid布局可以完美解决这个问题。立即学习“前端免费学习笔记（深入）”； html结构固定不动其他1 其他2 其他3 其他4 其他…

程序猿
好文分享 2025年12月24日
0000
好文分享

如何使用 Grid 布局解决固定布局和遍历 Div 问题？

解决固定布局和遍历 div 问题在开发中，我们有时需要创建固定布局中循环生成的元素。使用传统的定位方法可能比较复杂，这里为大家推荐一个完美的解决方案：grid 布局。方案：使用 grid 布局，设置容器为一行两列布局，第一个元素占据两行一列，其他元素自动排列。为容器设置边框和间距样式。为第一个…

程序猿
2025年12月24日
6000
好文分享

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
5000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
垂直排版如何解决纵向展示文字溢出问题？

纵向展示文字溢出的省略号处理在纵向排列的文字中，传统的水平溢出省略方案变得不适用。针对这一问题，css 提供了一种优雅的解决方案：垂直排版。垂直排版方案通过 css 的 writing-mode 属性，可以将原先水平排列的文字垂直排列。具体代码如下： p { writing-mode: ver…

程序猿
好文分享 2025年12月24日
0000
好文分享

带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

响应式侧边导航栏不仅有助于改善网站的导航，还可以解决整齐放置链接的问题，从而增强用户体验。通过使用工具提示，可以让用户了解每个链接的功能，包括设计紧凑的情况。在本教程中，我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。对于那些一直想要一个干净、简…

程序猿
2025年12月24日
1000
好文分享

如何实现与设计稿一致的前端进度条？

前端进度条的实现方案及优化方法要实现一个如设计稿所示的进度条，以下是一些思路：自定义原生进度条优点：可高度定制，可以满足各种特殊需求。缺点：需要自己编写所有代码，包括圆环效果和鼠标移上提示信息。立即学习“前端免费学习笔记（深入）”；基于 Element-UI 进度条优点：使用现成组件，可…

程序猿
2025年12月24日
1000
好文分享

掌握 Flexbox：我关于构建响应式布局的学习笔记

好吧，喝杯咖啡（或者茶，我们不评判），让我们深入flexbox的世界！如果您曾因试图让网页在任何设备上看起来都不错而感到沮丧 – 别担心，您并不孤单。 flexbox 来拯救世界，相信我，它并不像听起来那么可怕！ flexbox 到底是什么？ flexbox 就像您的个人布局助手，可以…

程序猿
2025年12月24日
0000
好文分享

布局 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在这里查看视觉效果：固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

程序猿
2025年12月24日
1000

发表回复

登录后才能评论

Meta无限长文本大模型来了：参数仅7B，已开源

关于作者

相关推荐

发表回复