『零基础+1』一文看懂LSTM原理-《动手学深度学习》

程序猿 • 2025年11月7日 17:34:40 • 用户投稿 • 阅读 0

长短期记忆网络（LSTM）为解决隐变量模型的长期信息保存与短期输入缺失问题而设计，含记忆元及输入门、遗忘门、输出门三个门控机制，通过特定计算控制信息留存更新。文中介绍其数学原理、从零开始及简洁实现，提及变体（如带猫眼连接）、与GRU的区别，并展示了训练和预测示例。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

1 长短期记忆网络（LSTM）

长期以来，隐变量模型存在着长期信息保存和短期输入缺失的问题。解决这一问题的最早方法之一是长短期存储器（long short-term memory，LSTM） Hochreiter.Schmidhuber.1997。

它有许多与门控循环单元（9.1节）一样的属性。有趣的是，长短期记忆网络的设计比门控循环单元稍微复杂一些，却比门控循环单元早诞生了近20年。

1.1 门控记忆元

可以说，长短期记忆网络的设计灵感来自于计算机的逻辑门。

长短期记忆网络引入了记忆元（memory cell），或简称为单元（cell）。

有些文献认为记忆元是隐状态的一种特殊类型，

它们与隐状态具有相同的形状，其设计目的是用于记录附加的信息。

为了控制记忆元，我们需要许多门。

其中一个门用来从单元中输出条目，我们将其称为输出门（output gate）。

另外一个门用来决定何时将数据读入单元，我们将其称为输入门（input gate）。

我们还需要一种机制来重置单元的内容，由遗忘门（forget gate）来管理，

这种设计的动机与门控循环单元相同，能够通过专用机制决定什么时候记忆或忽略隐状态中的输入。

注：

Sigmoid 层的输出值在 0 到 1 间，表示每个部分所通过的信息。0 表示「对所有信息关上大门」；1 表示「我家大门常打开」。

一个 LSTM 有三个这样的门，控制 cell 的状态。

门实质上是控制有百分之多少的信息保留下来。门操作由一个 sigmoid 网络层计算得到【0，1】的小数与输入数据流按位乘操作构成。

门的操作是相同的，只是根据不同的设计思想，不同的数据流，叫不同的名字

1.2 输入门、忘记门和输出门

就如在门控循环单元中一样，当前时间步的输入和前一个时间步的隐状态作为数据送入长短期记忆网络的门中，

它们由三个具有sigmoid激活函数的全连接层处理，以计算输入门、遗忘门和输出门的值。因此，这三个门的值都在(0,1)(0,1)的范围内。

首先，LSTM 的第一步需要决定我们需要从 cell 中抛弃哪些信息。这个决定是从 sigmoid 中的「遗忘层」来实现的。

它的输入是 ht-1 和 xt，输出为一个 0 到 1 之间的数。Ct−1 就是每个在 cell 中所有在 0 和 1 之间的数值，就像我们刚刚所说的，0 代表全抛弃，1 代表全保留。

下一步，我们需要决定什么样的信息应该被存储起来。这个过程主要分两步。

首先是 sigmoid 层（输入门）决定我们需要更新哪些值；

随后，tanh 层生成了一个新的候选向量 C`，它能够加入状态中。

接下来，我们就可以更新 cell 的状态了。

将旧状态与 ft 相乘，忘记此前我们想要忘记的内容，然后加上 C`。此时遗忘门为ftft

得到的结果便是新的候选值，依照itit进行缩放。

最后，我们需要决定要输出什么。此输出将基于我们处理后的单元状态。

首先，我们会运行一个 sigmoid 层决定 cell 状态输出哪一部分。

随后，我们把 cell 状态通过 tanh 函数，将输出值保持在-1 到 1 间。

之后，我们再乘以 sigmoid 门的输出值，就可以得到结果了。

我们来细化一下长短期记忆网络的数学表达。

假设有hh个隐藏单元，批量大小为nn，输入数为dd。

因此，输入为Xt∈Rn×dXt∈Rn×d，

前一时间步的隐状态为Ht−1∈Rn×hHt−1∈Rn×h。

相应地，时间步tt的门被定义如下：

输入门是It∈Rn×hIt∈Rn×h，

遗忘门是Ft∈Rn×hFt∈Rn×h，

输出门是Ot∈Rn×hOt∈Rn×h。

它们的计算方法如下：

It=σ(XtWxi+Ht−1Whi+bi)It=σ(XtWxi+Ht−1Whi+bi)

Ft=σ(XtWxf+Ht−1Whf+bf),Ft=σ(XtWxf+Ht−1Whf+bf),

Ot=σ(XtWxo+Ht−1Who+bo)Ot=σ(XtWxo+Ht−1Who+bo)

其中Wxi,Wxf,Wxo∈Rd×hWxi,Wxf,Wxo∈Rd×h

和Whi,Whf,Who∈Rh×hWhi,Whf,Who∈Rh×h是权重参数，

bi,bf,bo∈R1×hbi,bf,bo∈R1×h是偏置参数。

我们将其中的一些操作集合命名为不同的记忆元名称

1.3 候选记忆元

由于还没有指定各种门的操作，所以先介绍候选记忆元（candidate memory cell） C~t∈Rn×hC~t∈Rn×h。它的计算与上面描述的三个门的计算类似，但是使用tanh⁡tanh函数作为激活函数，函数的值范围为(−1,1)(−1,1)。下面导出在时间步tt处的方程：

C~t=tanh(XtWxc+Ht−1Whc+bc),C~t=tanh(XtWxc+Ht−1Whc+bc),

其中Wxc∈Rd×hWxc∈Rd×h和 Whc∈Rh×hWhc∈Rh×h是权重参数， bc∈R1×hbc∈R1×h是偏置参数。

1.4 记忆元

在门控循环单元中，有一种机制来控制输入和遗忘（或跳过）。类似地，在长短期记忆网络中，也有两个门用于这样的目的：输入门ItIt控制采用多少来自C~tC~t的新数据，而遗忘门FtFt控制保留多少过去的记忆元Ct−1∈Rn×hCt−1∈Rn×h的内容。使用按元素乘法，得出：

Ct=Ft⊙Ct−1+It⊙C~t.Ct=Ft⊙Ct−1+It⊙C~t.

如果遗忘门始终为11且输入门始终为00，则过去的记忆元Ct−1Ct−1 将随时间被保存并传递到当前时间步。引入这种设计是为了缓解梯度消失问题，并更好地捕获序列中的长距离依赖关系。

1.5 隐状态

最后，我们需要定义如何计算隐状态 Ht∈Rn×hHt∈Rn×h，这就是输出门发挥作用的地方。在长短期记忆网络中，它仅仅是记忆元的tanh⁡tanh的门控版本。这就确保了HtHt的值始终在区间(−1,1)(−1,1)内：

Ht=Ot⊙tanh⁡(Ct). (9.2.4)Ht=Ot⊙tanh(Ct). (9.2.4)

只要输出门接近11，我们就能够有效地将所有记忆信息传递给预测部分，而对于输出门接近00，我们只保留记忆元内的所有信息，而不需要更新隐状态。

2 从零开始实现

现在，我们从零开始实现长短期记忆网络。

我们首先加载时光机器数据集。

In [1]

import paddlefrom paddle import nnfrom d2l import paddle as d2limport paddle.nn.functional as Functionbatch_size, num_steps = 32, 35train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

2.1 初始化模型参数

接下来，我们需要定义和初始化模型参数。

如前所述，超参数num_hiddens定义隐藏单元的数量。

我们按照标准差0.010.01的高斯分布初始化权重，并将偏置项设为00。

In [2]

def get_lstm_params(vocab_size, num_hiddens):    num_inputs = num_outputs = vocab_size    def normal(shape):        return paddle.randn(shape=shape)*0.01    def three():        return (normal((num_inputs, num_hiddens)),                normal((num_hiddens, num_hiddens)),                paddle.zeros([num_hiddens]))    W_xi, W_hi, b_i = three()  # 输入门参数    W_xf, W_hf, b_f = three()  # 遗忘门参数    W_xo, W_ho, b_o = three()  # 输出门参数    W_xc, W_hc, b_c = three()  # 候选记忆元参数    # 输出层参数    W_hq = normal((num_hiddens, num_outputs))    b_q = paddle.zeros([num_outputs])    # 附加梯度    params = [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc,              b_c, W_hq, b_q]    for param in params:        param.stop_gradient = False    return params

2.2 定义模型

在[初始化函数]中，长短期记忆网络的隐状态需要返回一个额外的记忆元，单元的值为0，形状为（批量大小，隐藏单元数）。

因此，我们得到以下的状态初始化。

In [3]

def init_lstm_state(batch_size, num_hiddens):    return (paddle.zeros([batch_size, num_hiddens]),            paddle.zeros([batch_size, num_hiddens]))

实际模型的定义与我们前面讨论的一样：提供三个门和一个额外的记忆元。

请注意:只有隐状态才会传递到输出层，而记忆元CtCt不直接参与输出计算。In [4]

def lstm(inputs, state, params):    [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c,     W_hq, b_q] = params    (H, C) = state    outputs = []    for X in inputs:        I = Function.sigmoid((X @ W_xi) + (H @ W_hi) + b_i)        F = Function.sigmoid((X @ W_xf) + (H @ W_hf) + b_f)        O = Function.sigmoid((X @ W_xo) + (H @ W_ho) + b_o)        C_tilda = paddle.tanh((X @ W_xc) + (H @ W_hc) + b_c)        C = F * C + I * C_tilda        H = O * paddle.tanh(C)        Y = (H @ W_hq) + b_q        outputs.append(Y)    return paddle.concat(outputs, axis=0), (H, C)

2.3 训练和预测

让我们通过实例化8.5节中,引入的RNNModelScratch类来训练一个长短期记忆网络。

此外，我们还加入了额外的模型测试。

In [6]

##  训练vocab_size, num_hiddens, device = len(vocab), 256, d2l.try_gpu()num_epochs, lr = 500, 1.0model = d2l.RNNModelScratch(len(vocab), num_hiddens, device,get_lstm_params,                            init_lstm_state, lstm)d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)

In [10]

##  预测# 自定义 prefix ， num_preds 进行预测prefix = 'tr'num_preds = 5net = modeld2l.predict_ch8(prefix, num_preds, net, vocab, device)

'treasth'

2.4 简洁实现

使用高级API，我们可以直接实例化LSTM模型。

高级API封装了前文介绍的所有配置细节。

这段代码的运行速度要快得多，因为它使用的是编译好的运算符而不是Python来处理之前阐述的许多细节。

In [7]

num_inputs = vocab_sizelstm_layer = nn.LSTM(num_inputs, num_hiddens, time_major=True)model = d2l.RNNModel(lstm_layer, len(vocab))d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)

2.5 结构拓展

比较流行的 LSTM 变体就是 Gers & Schmidhuber (2000) 提出的「猫眼连接」（peephole connections）的神经网络，也就是说，门连接层能够接收到 cell 的状态。

上图展示了全加上「猫眼连接」的效果，但实际上论文中并不会加这么多。

另一种变体就是采用一对门，分别叫遗忘门（forget）及输入门（input）。

与分开决定遗忘及输入的内容不同，现在的变体会将这两个流程一同实现。

我们只有在将要输入新信息时才会遗忘，而也只会在忘记信息的同时才会有新的信息输入。

一个比较知名的变体为 GRU（Gated　Recurrent），由 Cho, et al. (2014) 提出。他将遗忘门与输入门结合在一起，名为**「更新门」**（update gate），并将 cell 状态与隐藏层状态合并在一起，此外还有一些小的改动。

GRU和LSTM的区别：

LSTM有三个门，而GRU有两个门去掉了细胞单元C输出的时候取消了二阶的非线性函数

这个模型比起标准 LSTM 模型简单一些，因此也变得更加流行了。

当然，这里所列举的只是一管窥豹，还有很多其它的变体，

比如 Yao, et al. (2015) 提出的 Depth Gated RNNs；或是另辟蹊径处理长期依赖问题的 Clockwork RNNs，由 Koutnik, et al. (2014) 提出。

哪个是最好的呢？而这些变化是否真的意义深远？

Greff, et al. (2015) 曾经对比较流行的几种变种做过对比，发现它们基本上都差不多；

Jozefowicz, et al. (2015) 测试了超过一万种 RNN 结构，发现有一些能够在特定任务上超过 LSTMs。

以上就是『零基础+1』一文看懂LSTM原理-《动手学深度学习》的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/46256.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

利用Webman实现网站的响应式图片显示

上一篇 2025年11月7日 17:34:39

APP系统软件开发的总体流程分析

下一篇 2025年11月7日 17:34:40

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
7000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
3000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
2000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
3000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
3000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
3000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
1000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
1000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
1000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
1000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
1000
好文分享

为什么自定义样式表在 Safari 中访问百度页面时无法生效？

自定义样式表在 safari 中失效的原因用户尝试在 safari 偏好设置中添加自定义样式表，代码如下： body { background-image: url(“/users/luxury/desktop/wallhaven-o5762l.png”) !important;} 测试后发现，在…

程序猿
2025年12月24日
1000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
3000