Tacotron:[Tacotron: A Fully End-To-End Text-To-Speech Synthesis Model]-模型结构

时间:2024-10-05 16:29:08

Tacotron

Tacotron的基础架构是Seq2Seq模型,下图是模型的总体架构,该模型包括编码器,基于注意力的解码器和post-processing net,从高层次上讲,模型将字符作为输入,并生成频谱图,然后将其转换为波形。
在这里插入图片描述
要特别说明的是架构中,raw text经过pre-net后,将会把输出喂给一个叫CBHG的模块以映射为hidden representation,再之后decoder会生成mel-spectrogram frame。所谓CBHG就是作者使用的一种用来从序列中提取高层次特征的模块,如下图所示:
在这里插入图片描述

CBHG内部结构说明

CBHG使用了1D卷积、highway、残差链接和双向GRU的组合,输入序列,输出同样也是序列,因此&