RNN-GRU-LSTM变体详解

首先介绍一下 encoder-decoder 框架

中文叫做编码-解码器，它一个最抽象的模式可以用下图来展现出来:
RNN-GRU-LSTM变体详解

这个框架模式可以看做是RNN的一个变种:N vs M,叫做Encoder-Decoder模型，也可以称之为Seq2Seq模型。

原始的N vs N RNN要求序列等长，然而我们遇到的大部分问题序列都是不等长的，如机器翻译中，源语言和目标语言的句子往往并没有相同的长度。

对于文本领域来讲，这个框架可以直观的这么去解释:它可以当做是一个句子(文章)通过处理生成另一个句子(文章)的通用框架。假设给定输入句子Source,想要通过encoder-decoder 生成目标句子Target。Source和Target可以是同一种语言，也可以是两种不同的语言，当然也就对应着不同的任务，比如机器翻译，比如文章生成摘要。

对于Source和Target 分别由各自的单词序列构成:

这个框架最为核心的一点就是中间语义向量C。

C的获得有多种方式，最为简单的就是把编码器的最后一层的隐层状态直接复制为C，或者可以对这个隐层状态进行一个变换再赋值为C，还可以对编码器部分（或者所有）隐层状态进行一个变换然后赋值为C。
RNN-GRU-LSTM变体详解

对于解码器来说，处理中间语义向量C的方法也有不同方法。C可以直接被当做解码器首个分支的输入h0，也可以当做解码器所有分支的输入.
RNN-GRU-LSTM变体详解

参考了这篇博文-写的很厉害-介绍而RNN和及其变种-简单命了-完全图解RNN、RNN变体、Seq2Seq、Attention机制

这个encoder-decoder模型最为常见的一个使用就是机器翻译的实际应用，我会写一篇关于此应用的，由此引出attention机制，并对这个机制进行一个详细解释

秒客网

RNN-GRU-LSTM变体详解

相关文章