深度学习知识点:循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)

时间:2024-04-27 08:35:51

深度学习知识点:循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)

  • 前言
  • 循环神经网络(RNN)
    • RNNs(循环神经网络)训练和传统ANN(人工神经网络)训练异同点?
    • 为什么RNN 训练的时候Loss波动很大?
    • RNN中为什么会出现梯度消失?
    • 如何解决RNN中的梯度消失问题?
    • CNN VS RNN
    • Keras搭建RNN
  • 长短期记忆网络(LSTM)
    • LSTM结构推导,为什么比RNN好?
    • 为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数,而不是选择统一一种sigmoid或者tanh?
    • LSTM中为什么经常是两层双向LSTM?
    • RNN扩展改进
      • Bidirectional RNNs
      • CNN-LSTMs
      • Bidirectional LSTMs
      • 门控循环单元(GRU)
    • LSTM、RNN、GRU区别?
    • LSTM是如何实现长短期记忆功能的?
    • LSTM的原理、写LSTM的公式、手推LSTM的梯度反向传播

前言

  • 本文是个人收集、整理、总结的一些人工智能知识点,由于本人水平有限,难免出现错漏,敬请批评改正。
  • 由于本文是对知识点的收集和整理,图片基本来源于网络,图片若侵权,可联系删除。
  • 更多精彩内容,可点击进入人工智能知识点专栏、Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
  • 基于DETR的人脸伪装检测
  • YOLOv7训练自己的数据集(口罩检测)
  • YOLOv8训练自己的数据集(足球检测)
  • YOLOv5:TensorRT加速YOLOv5模型推理
  • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
  • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
  • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
  • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
  • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
  • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
  • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目

循环神经网络(RNN)

  • 核心思想:像人一样拥有记忆能力。用以往的记忆和当前的输入,生成输出。

  • RNN 和 传统神经网络 最大的区别:
    在于每次都会将前一次的输出结果,带到下一次的隐藏层中,一起训练。
    在这里插入图片描述

  • RNN应用场景:
    1.文本生成 2.语音识别 3.机器翻译 4.生成图像描述 5.视频标记
    在这里插入图片描述

  • 缺点:
    RNN 有短期记忆问题,无法处理很长的输入序列
    训练 RNN 需要投入极大的成本

  • RNN 是一种死板的逻辑,越晚的输入影响越大,越早的输入影响越小,且无法改变这个逻辑。

RNNs(循环神经网络)训练和传统ANN(人工神经网络)训练异同点?

相同点:都使用BP误差反向传播算法。
不同点:
RNNs网络参数W,U,V是共享的,而传统神经网络各层参数间没有直接联系。
对于RNNs,在使用梯度下降算法中,每一步的输出不仅依赖当前步的网络,还依赖于之前若干步的网络状态。

为什么RNN 训练的时候Loss波动很大?

​ 由于RNN特有的memory会影响后期其他的RNN的特点,梯度时大时小,学习率lr没法个性化的调整,导致RNN在train的过程中,Loss会震荡起伏,为了解决RNN的这个问题,在训练的时候,可以设置临界值,当梯度大于某个临界值,直接截断,用这个临界值作为梯度的大小,防止大幅震荡。

RNN中为什么会出现梯度消失?

梯度消失现象:累乘会导致激活函数导数的累乘,如果取tanh或sigmoid函数作为激活函数的话,那么必然是一堆小数在做乘法,结果就是越乘越小。随着时间序列的不断深入,小数的累乘就会导致梯度越来越小直到接近于0,这就是“梯度消失“现象。
实际使用中,会优先选择tanh函数,原因是tanh函数相对于sigmoid函数来说梯度较大,收敛速度更快且引起梯度消失更慢。

如何解决RNN中的梯度消失问题?

1.选取更好的激活函数,如Relu激活函数。ReLU函数的左侧导数为0,右侧导数恒为1,这就避免了“梯度消失“的发生。但恒为1的导数容易导致“梯度爆炸“,但设定合适的阈值可以解决这个问题。
2.加入BN层,其优点:加速收敛.控制过拟合,可以少用或不用Dropout和正则。降低网络对初始化权重不敏感,且能允许使用较大的学习率等。
3.改变传播结构,LSTM结构可以有效解决这个问题。

CNN VS RNN

在这里插入图片描述

不同点
1.CNN空间扩展,神经元与特征卷积;RNN时间扩展,神经元与多个时间输出计算
2.RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出。

Keras搭建RNN

在这里插入图片描述

长短期记忆网络(LSTM)

  • 长短期记忆网络(Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。

  • 三个门(遗忘门,输入门,输出门),两个状态(Ct,ht)
    在这里插入图片描述

    • 遗忘门
      ​ 作用对象:细胞状态 。
      ​ 作用:将细胞状态中的信息选择性的遗忘。
      Ft和Ct-1做点积操作,Ft确保Ct-1有哪些东西需要被遗忘掉
      在这里插入图片描述

    • 输入层门
      作用对象:细胞状态
      ​ 作用:将新的信息选择性的记录到细胞状态中。
      ​ 操作步骤:
      ​ 步骤一:sigmoid 层称 “输入门层” 决定什么值我们将要更新
      ​ 步骤二,tanh 层创建一个新的候选值向量加入到状态中
      在这里插入图片描述

    • 输出层门
      ​ 作用对象:隐层ht 作用:确定输出什么值。
      ​ 操作步骤:
      ​ 步骤一:通过sigmoid 层来确定细胞状态的哪个部分将输出。
      ​ 步骤二:把细胞状态通过 tanh 进行处理,并将它和 sigmoid 门的输出相乘,最终我们仅仅会输出我们确定输出的那部分。
      在这里插入图片描述

LSTM结构推导,为什么比RNN好?

推导forget gate,input gate,cell state, hidden information等的变化;因为LSTM有进有出且当前的cell information是通过input gate控制之后叠加的,RNN是叠乘,因此LSTM可以防止梯度消失或者爆炸。

为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数,而不是选择统一一种sigmoid或者tanh?

sigmoid用在了各种gate上,产生0~1之间的值,一般只有sigmoid最直接了;
tanh用在了状态和输出上,是对数据的处理,这个用其他激活函数或许也可以。

LSTM中为什么经常是两层双向LSTM?

有些时候预测需要由前面若干输入和后面若干输入共同决定,这样会更加准确。

RNN扩展改进

Bidirectional RNNs

​ 将两层RNNs叠加在一起,当前时刻输出(第t步的输出)不仅仅与之前序列有关,还与之后序列有关。例如:为了预测一个语句中的缺失词语,就需要该词汇的上下文信息。Bidirectional RNNs是一个相对较简单的RNNs,是由两个RNNs上下叠加在一起组成的。输出由前向RNNs和后向RNNs共同决定。
在这里插入图片描述

CNN-LSTMs

该模型中,CNN用于提取对象特征,LSTMs用于预测。CNN由于卷积特性,其能够快速而且准确地捕捉对象特征。LSTMs的优点:能够捕捉数据间的长时依赖性。
在这里插入图片描述

Bidirectional LSTMs

有两层LSTMs。 一层处理过去的训练信息,另一层处理将来的训练信息。
通过前向LSTMs获得前向隐藏状态,后向LSTMs获得后向隐藏状态,当前隐藏状态是前向隐藏状态与后向隐藏状态的组合。
在这里插入图片描述

门控循环单元(GRU)

(14年提出)是一般的RNNs的变型版本,其主要是从以下两个方面进行改进。
1.以语句为例,序列中不同单词处的数据对当前隐藏层状态的影响不同,越前面的影响越小,即每个之前状态对当前的影响进行了距离加权,距离越远,权值越小。
2.在产生误差error时,其可能是由之前某一个或者几个单词共同造成,所以应当对对应的单词weight进行更新。GRUs的结构如下图所示。GRUs首先根据当前输入单词向量word vector以及前一个隐藏层状态hidden state计算出update gate和reset gate。再根据reset gate、当前word vector以及前一个hidden state计算新的记忆单元内容(new memory content)。当reset gate为1的时候,new memory content忽略之前所有memory content,最终的memory是由之前的hidden state与new memory content一起决定。
在这里插入图片描述
GRU(门控循环单元)也是一种循环神经网络(RNN)的变体,用于处理序列数据。与LSTM相比,GRU的结构相对简单,但它仍然能够有效地捕获序列数据中的长期依赖关系。

GRU的结构由两部分组成:更新门和重置门。更新门用于控制上一时刻隐藏状态对当前时刻隐藏状态的贡献程度,而重置门用于控制当前输入对当前时刻隐藏状态的更新程度。

在GRU中,更新门的作用类似于LSTM中的遗忘门和输入门,它决定了上一时刻隐藏状态对当前时刻隐藏状态的影响程度。重置门则控制着当前输入对当前时刻隐藏状态的更新程度。

GRU的公式如下:

  1. 更新门: z t = σ ( W z ∗ [ h t − 1 , x t ] + b z ) z_t = σ(W_z * [h_{t-1}, x_t] + b_z) zt=σ(Wz[ht1,xt]+bz)
  2. 重置门: r t = σ ( W r ∗ [ h t − 1 , x t ] + b r ) r_t = σ(W_r * [h_{t-1}, x_t] + b_r) rt=σ(Wr[ht1,xt]+br)
  3. 候选隐藏状态: h t ′ = t a n h ( W ∗ [ r t ∗ h t − 1 , x t ] + b ) h'_t = tanh(W * [r_t * h_{t-1}, x_t] + b) ht=tanh(W[rtht1,xt]+b)
  4. 最终隐藏状态: h t = ( 1 − z t ) ∗ h t − 1 + z t ∗ h t ′ h_t = (1 - z_t) * h_{t-1} + z_t * h'_t ht=(1zt)ht1+ztht

其中, W z 、 W r W_z、W_r WzWr是权重矩阵, b z 、 b r b_z、b_r bzbr是偏置项, σ σ σ是sigmoid激活函数, t a n h tanh tanh是双曲正切激活函数。

与LSTM类似,在训练过程中,我们需要计算损失函数(loss function)的值,然后通过反向传播算法(backpropagation)来更新权重和偏置项。GRU的梯度反向传播过程也涉及复杂的计算和动态规划技巧。

需要注意的是,虽然GRU相对于LSTM在结构上更为简单,但在某些任务上可能表现不如LSTM。因此,在实际应用中,选择LSTM或GRU应该根据具体任务和数据的特点来进行决策。

LSTM、RNN、GRU区别?

在这里插入图片描述

与LSTM相比,GRU内部少了一个”门控“,参数比LSTM少,但是却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本,因而很多时候我们也就会选择更加实用的GRU。

LSTM是如何实现长短期记忆功能的?

LSTM(长短期记忆网络)通过引入门控机制来实现长期记忆功能。这些门控机制允许LSTM有选择地遗忘、更新和输出信息,从而有效地管理信息的流动。

具体来说,LSTM包含三个门控:遗忘门、输入门和输出门。遗忘门控制着输入x和上一层隐藏层输出h被遗忘的程度大小,即决定是否保留之前的信息。当输入的序列中没有重要的信息时,LSTM的遗忘门的数值接近于1,更新门的数据接近于0,此时过去的记忆会被保存,从而实现了长期的记忆功能。当输入的序列中出现了重要的信息时,LSTM应该把其存入记忆时,此时更新门的数值将接近于1。

输入门控制着输入x和当前计算的状态更新到记忆单元的程度大小。它由输入门(input gate)与tanh神经网络层和一个按位乘操作构成。记忆门决定了当前时刻的记忆状态有多少来自于之前的记忆。

输出门控制着输入x和当前输出取决于当前记忆单元的程度大小。输出门(output gate)与函数以及按位乘操作共同作用将细胞状态和输入信号传递到输出端。

总之,LSTM通过精心设计的门控机制来实现长期记忆功能,使得模型能够更好地捕捉序列数据中的长期依赖关系。

LSTM的原理、写LSTM的公式、手推LSTM的梯度反向传播

LSTM是一种特殊的循环神经网络(RNN),用于处理具有长期依赖关系的序列数据。它的核心思想是通过引入门控机制来控制信息的流动,从而避免长期依赖问题。LSTM的结构由细胞状态和输出向量两部分组成,通过遗忘门、输入门和输出门来控制信息的传递。

LSTM的公式如下:

  1. 遗忘门: f t = σ ( W f ∗ [ h t − 1 , x t ] + b f ) f_t = σ(W_f * [h_{t-1}, x_t] + b_f) ft=σ(Wf[ht1,xt]+bf)
  2. 输入门: i t = σ ( W i ∗ [ h t − 1 , x t ] + b i ) i_t = σ(W_i * [h_{t-1}, x_t] + b_i) it=σ(Wi[ht1,xt]+bi)
  3. 更新单元: c t = f t ∗ c t − 1 + i t ∗ t a n h ( W c ∗ [ h t − 1 , x t ] + b c ) c_t = f_t * c_{t-1} + i_t * tanh(W_c * [h_{t-1}, x_t] + b_c) ct=ftct1+ittanh(Wc[ht1,xt]+bc)
  4. 输出门: o t = σ ( W o ∗ [ h t − 1 , x t ] + b o ) o_t = σ(W_o * [h_{t-1}, x_t] + b_o) ot=σ(Wo