为什么大型语言模型都在使用 SwiGLU 作为激活函数？

程序猿 • 2025年11月11日 04:32:45 • 用户投稿 • 阅读 2

如果你一直在关注大型语言模型的架构，你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数，我们本篇文章就来对它进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数，它结合了SWISH和GLU两者的特点。SwiGLU的中文全称是“双向门控线性单元”，它将SWISH和GLU两种激活函数进行了优化和结合，以提高模型的非线性表达能力。SWISH是一种非常普遍的激活函数，它在大语言模型中得到广泛应用，而GLU则在自然语言处理任务中表现出色。SwiGLU的优点在于它能够同时获取SWISH的平滑特性和GLU的门控特性，从而在模型的非线性表达上更加

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

我们一个一个来介绍：

Swish

Swish是一个非线性激活函数，定义如下:

Swish(x) = x*sigmoid(ßx)

其中，ß 为可学习参数。Swish 可以比ReLU激活函数更好，因为它给予了更平滑的转换，这可以带来更好的优化。

Gated Linear Unit

GLU（Gated Linear Unit）定义为两个线性变换的分量积，其中一个线性变换由sigmoid激活。

GLU(x) = sigmoid(W1x+b)⊗(Vx+c)

GLU模块可以有效地捕获序列中的远程依赖关系，同时避免了LSTM和GRU等其他门控机制相关的一些梯度消失问题。

SwiGLU

我们已经说过SwiGLU是两者的结合。它是一个GLU，但不是将sigmoid作为激活函数，而是使用ß=1的swish，因此我们最终得到以下公式：

SwiGLU(x) = Swish(W1x+b)⊗(Vx+c)

我们用SwiGLU函数构造一个前馈网络

FFNSwiGLU(x) = (Swish1(xW)⊗xV)W2

Pytorch的简单实现

如果上面的数学原理看着比较麻烦枯燥难懂，我们下面直接使用代码解释。

class SwiGLU(nn.Module): def __init__(self, w1, w2, w3) -> None:super().__init__()self.w1 = w1self.w2 = w2self.w3 = w3 def forward(self, x):x1 = F.linear(x, self.w1.weight)x2 = F.linear(x, self.w2.weight)hidden = F.silu(x1) * x2return F.linear(hidden, self.w3.weight)

我们代码使用的F.silu函数与ß=1时的swish相同的，所以就直接拿来使用了。

代码可以看到，我们的激活函数中也有3个权重是可以训练的，这就是来自于GLU公式里的参数。

SwiGLU的效果对比

SwiGLU与其他GLU变体进行比较，我们可以看到SwiGLU在两种预训练期间都表现得更好。

下游任务

效果表现得最好，所以现在的llm，如LLAMA, OLMO和PALM都在其实现中采用SwiGLU。但是为什么SwiGLU比其他的好呢？

豆包大模型

字节跳动自主研发的一系列大型语言模型

834 查看详情

论文中只给了测试结果而且并没有说明原因，而是说：

We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence.

作者说炼丹成功了。

但是现在已经是2024年了我们可以强行的解释一波：

1、Swish对于负值的响应相对较小克服了 ReLU 某些神经元上输出始终为零的缺点

2、GLU 的门控特性，这意味着它可以根据输入的情况决定哪些信息应该通过、哪些信息应该被过滤。这种机制可以使网络更有效地学习到有用的表示，有助于提高模型的泛化能力。在大语言模型中，这对于处理长序列、长距离依赖的文本特别有用。

3、SwiGLU 中的参数 W1,W2,W3,b1,b2,b3W1,W2,W3,b1,b2,b3 可以通过训练学习，使得模型可以根据不同任务和数据集动态调整这些参数，增强了模型的灵活性和适应性。

4、计算效率相比某些较复杂的激活函数（如 GELU）更高，同时仍能保持较好的性能。这对于大规模语言模型的训练和推理是很重要的考量因素。

选择 SwiGLU 作为大语言模型的激活函数，主要是因为它综合了非线性能力、门控特性、梯度稳定性和可学习参数等方面的优势。在处理语言模型中复杂的语义关系、长依赖问题、以及保持训练稳定性和计算效率方面，SwiGLU 表现出色，因此被广泛采用。

论文地址

https://www.php.cn/link/86e33d550dc162366a02003089ab9894

以上就是为什么大型语言模型都在使用 SwiGLU 作为激活函数？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/617123.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

电台app在跨平台开发时需要注意哪些问题？

上一篇 2025年11月11日 04:32:38

SQL多表级联删除：如何用一条语句确保所有相关数据都被删除？

下一篇 2025年11月11日 04:32:46

用户投稿

HiDream-I1— 智象未来开源的文生图模型

hidream-i1：一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型，采用MIT许可证，在图像质量和对提示词的理解方面表现卓越。它支持多种风格，包括写实、卡通和艺术风格，广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

程序猿
2025年12月5日
2000
RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

清华和上交的最新论文中，上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。通过一系列实验，他们证明引入强化学习的模型在某些任务中的表现，竟然不如未使用强化学习的模型。论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用，尤…

程序猿
2025年12月3日 • 用户投稿
2000
Writesonic怎样用生成续写扩篇幅_Writesonic用生成续写扩篇幅【篇幅扩展】

使用Writesonic可有效扩写文章：一、用“Continue Writing”功能生成连贯续写；二、通过“Explain this in detail with examples”指令深化内容；三、以“Provide a counter-argument”引入多视角论述；四、利用FAQ生成器创建…

程序猿
2025年12月2日 • 用户投稿
0000
用户投稿

亚马逊发布 Bedrock，推出多项新功能，助力企业利用生成式AI技术

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 亚马逊网络服务公司近日在生态系统中推出了五款全新的生成式人工智能产品，这些产品将帮助企业客户利用自己的数据建立人工智能应用程序，并提供更好的安全性和模型的可及性。这些新服务的包括全面推出的Am…

程序猿
2025年12月2日
0000
ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项

在法国巴黎举行了国际计算机视觉大会ICCV（International Conference on Computer Vision）本周开幕作为全球计算机视觉领域顶级的学术会议，ICCV 每两年召开一次。 ICCV的热度一直以来都与CVPR不相上下，屡创新高在今天的开幕式上，ICCV官方公布了今…

程序猿
2025年12月2日 • 用户投稿
0000
最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

如果你曾经与任何一款对话式 AI 机器人交流过，你一定会记得一些令人感到非常沮丧的时刻。比如，你在前一天的对话中提到的重要事项，被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文，就像为考试而临时抱佛脚的学生，稍加盘问就会「露出马脚」。如果AI助手能够在聊天中根据上下文参考…

程序猿
2025年12月2日 • 用户投稿
1000
PyTorch+昇腾共促AI生态创新发展

2023年10月5日（北京时间），pyt%ignore_a_1%rch社区正式发布了2.1版本。经过pytorch社区与昇腾的持续合作和共同努力，pytorch 2.1版本已经同步支持昇腾npu。这意味着开发者可以直接在pytorch 2.1上进行基于昇腾的模型开发。未来，通过持续的社区技术贡献，昇…

程序猿
2025年12月2日 • 用户投稿
1000
生产式AI驱动的主机自动化测试

译者 | 陈峻审校 | 重楼将传统大型主机应用的代码和数据迁移到现代化技术架构上，被认为是企业数字化发展的关键步骤。在追求效率和可扩展性的过程中，这种转变通常涉及从传统大型主机环境迁移到更灵活的云计算或内部部署方案中。这样的转型有助于企业实现更高的灵活性和创新能力，同时降低成本和提高安全性。这种…

程序猿
2025年12月2日 • 用户投稿
0000
「人车交互」新突破！普渡大学发布Talk2Drive框架：可学习/定制的「指令识别」系统

在普渡大学数字孪生实验室的最新研究中，科学家们采用了一项革命性技术——利用大型语言模型（llm）来增强自动驾驶汽车的智能指令解析能力。这一创新为自动驾驶技术的发展带来了新的可能性，有望提高车辆对驾驶指令的理解和响应速度。这项技术的关键是Talk2Drive框架，旨在利用人类自然语言来操控自动驾驶汽…

程序猿
2025年12月2日 • 用户投稿
0000
选择最适合数据的嵌入模型：OpenAI 和开源多语言嵌入的对比测试

openai最近宣布推出他们的最新一代嵌入模型embedding v3，他们声称这是性能最出色的嵌入模型，具备更高的多语言性能。这一批模型被划分为两种类型：规模较小的text-embeddings-3-small和更为强大、体积较大的text-embeddings-3-large。 ☞☞☞AI 智能…

程序猿
2025年12月2日 • 用户投稿
0000
变革性趋势：生成式人工智能及其对软件开发的影响

人工智能的崛起正在推动软件开发的快速发展。这一强大技术有可能彻底改变我们构建软件的方法，对设计、开发、测试和部署等各个方面都会产生深远影响。对于企图进入动态软件开发领域的企业来说，生成式人工智能技术的问世为它们提供了前所未有的发展机遇。将这一前沿技术纳入其开发流程后，公司可以大幅提升生产效率、缩短…

程序猿
2025年12月2日 • 用户投稿
0000
谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

要说最近最郁闷的公司，谷歌肯定算得上一个：自家的 Gemini 1.5 刚刚发布，就被 OpenAI 的 Sora 抢尽了风头，堪称 AI 界的「汪峰」。具体来说，谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型（涉及文本…

程序猿
2025年12月2日 • 用户投稿
6000
Sora无法替代人类！亚马逊工程师断言：实际工作冲突不可能靠AI解决

这一周，OpenAI视频AI工具Sora一出现，可谓是炸翻了天。「饭碗保不住了」的恐惧，真实地击中了许多人。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片不过，亚马逊的一位工程师Cameron Gould则认为，其实并不必对AI如…

程序猿
2025年12月2日 • 用户投稿
0000
马斯克预测 Grok 5 实现通用人工智能概率 10%且还在上升

近日，特斯拉与 spacex 首席执行官马斯克在社交平台上发表言论，预测其旗下人工智能公司 xai 正在研发的 grok 5 大型语言模型，有 10% 的可能性实现通用人工智能（agi），并指出这一概率正持续攀升。上个月，马斯克就曾提出 xAI 或将通过 Grok 5 达成 AGI 的目标，此番言…

程序猿
2025年12月2日 • 用户投稿
0000
如何快速部署DeepSeek| 腾讯云TI部署指南

一、为什么选择deepseek与创想鸟hai的结合近年来，随着大模型在多种应用场景中的快速发展，AI工程师们迫切需要一种能够快速、高效且成本低廉的方式来部署和管理模型服务。PHP中文网HAI（高性能AI）平台是一个专为高性能计算和深度学习设计的综合解决方案，提供GPU/CPU资源调度、自动化部署以…

程序猿
2025年12月2日 • 用户投稿
11000
腾讯云TI平台极速部署DeepSeek

前言 DeepSeek的出现，彻底改变了传统的LLM模式，允许我们在本地电脑上部署类似于ChatGPT的大型语言模型，解决了网络和对话次数限制的问题。然而，如果希望随时随地使用DeepSeek云服务，可以考虑利用PHP中文网的HAI或TI平台。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, …

程序猿
2025年12月2日 • 用户投稿
0000
deepseek官网入口教程_deepseek网页版使用详解

答案是使用DeepSeek网页版需先访问官网https://chat.deepseek.com，点击【开始对话】登录或注册账号，支持手机号验证码登录和微信扫码；登录后可在主界面输入问题进行对话，使用“深度思考”提升推理能力，“联网搜索”获取实时信息，或通过别针图标上传文档（PDF/Word）提取内容…

程序猿
2025年12月2日 • 用户投稿
1000
llama3如何接入实时流数据_llama3实时流数据接入配置与事件驱动机制

首先配置消息中间件实现异步通信，选择Kafka或RabbitMQ部署并确保SSL加密；其次构建事件监听器，编写消费者脚本订阅主题、解析数据并调用llama3；接着启用流式输出模式，通过–streaming-enable参数和SSE客户端实现低延迟响应；然后集成时间窗口聚合模块，每5秒拼接…

程序猿
2025年12月2日 • 用户投稿
0000
llama3如何执行A/B实验_llama3A/B实验执行框架及变异生成分析

答案：通过构建可控实验框架，对比不同提示策略与解码参数对Llama3生成效果的影响，评估其在一致性、多样性与准确性上的表现差异。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 如果您希望在Llama3模型的输出生成过程中进行A/B实验以评估…

程序猿
2025年12月2日 • 用户投稿
0000
llama3如何创建动态可视化_llama3动态可视化创建引擎及交互元素绑定

首先检查可视化引擎是否正确初始化，需导入VisualizerEngine并以dynamic模式启动渲染循环；接着绑定数据源到图形元素，通过bind_data连接数据流与图表，并设置更新间隔；然后配置交互控件如滑块，将其事件绑定至回调函数以实现参数动态调整；最后在多图层场景中添加图层并建立依赖关系，启…

程序猿
2025年12月2日 • 用户投稿
0000