RNN-GRU-LSTM变体详解

时间:2023-03-08 21:26:57
RNN-GRU-LSTM变体详解

首先介绍一下 encoder-decoder 框架

中文叫做编码-解码器,它一个最抽象的模式可以用下图来展现出来:
RNN-GRU-LSTM变体详解

这个框架模式可以看做是RNN的一个变种:N vs M,叫做Encoder-Decoder模型,也可以称之为Seq2Seq模型。

原始的N vs N RNN要求序列等长,然而我们遇到的大部分问题序列都是不等长的,如机器翻译中,源语言和目标语言的句子往往并没有相同的长度。

对于文本领域来讲,这个框架可以直观的这么去解释:它可以当做是一个句子(文章)通过处理生成另一个句子(文章)的通用框架。假设给定输入句子Source,想要通过encoder-decoder 生成目标句子Target。Source和Target可以是同一种语言,也可以是两种不同的语言,当然也就对应着不同的任务,比如机器翻译,比如文章生成摘要。

对于Source和Target 分别由各自的单词序列构成:

这个框架最为核心的一点就是中间语义向量C。

C的获得有多种方式,最为简单的就是把编码器的最后一层的隐层状态直接复制为C,或者可以对这个隐层状态进行一个变换再赋值为C,还可以对编码器部分(或者所有)隐层状态进行一个变换然后赋值为C。
RNN-GRU-LSTM变体详解

对于解码器来说,处理中间语义向量C的方法也有不同方法。C可以直接被当做解码器首个分支的输入h0,也可以当做解码器所有分支的输入.
RNN-GRU-LSTM变体详解
RNN-GRU-LSTM变体详解

参考了这篇博文-写的很厉害-介绍而RNN和及其变种-简单命了-完全图解RNN、RNN变体、Seq2Seq、Attention机制

这个encoder-decoder模型最为常见的一个使用就是机器翻译的实际应用,我会写一篇关于此应用的,由此引出attention机制,并对这个机制进行一个详细解释