文件名称:parallel-wavenet-vocoder:基于WaveNet的声码器可进行快速推理
文件大小:779KB
文件格式:ZIP
更新时间:2024-06-03 00:22:44
Python
并行WaveNet声码器 概述 这是一个实验项目,建立了一个基于WaveNet的声码器,该声码器在论文的启发下将梅尔频谱图并行转换为原始波。 由于非自回归模型之一的的结构,我们能够并行生成顺序数据。 由于在最大似然估计中无法直接直接对IAF模型进行优化,从而无法找到合适的最优值,因此难以一概而论,因此,本文引入了一种替代方法,即概率密度蒸馏。 它预先训练原始的WaveNet(教师),然后通过最小化两个概率之间的KL差异来优化IAF模型(学生)以对相似的输出概率进行建模。 如果再想一想,我们可以得出结论,“自回归”损失被强加给IAF模型,IAF模型本身就是非自回归模型。 这意味着,在训练序列生成模型时,“自回归”约束仍然是关键。 为了优化模型,我只尝试了简单模型(MLE),因为我对设计替代模型的动机感到好奇。 总之,在我的案例中,在没有自回归约束的情况下优化IAF模型几乎是不可行的。
【文件预览】:
parallel-wavenet-vocoder-master
----train.py(3KB)
----hparams()
--------default.yaml(1KB)
--------hparams.yaml(1KB)
----generate_multi.py(403B)
----generate.py(3KB)
----utils.py(183B)
----materials()
--------iaf.png(323KB)
--------loss.png(259KB)
--------parallel_wavenet.png(228KB)
----requirements.txt(98B)
----models.py(7KB)
----modules.py(18KB)
----LICENSE(1KB)
----tools()
--------data_prepro_parallel.py(3KB)
----README.md(4KB)
----audio.py(10KB)
----.gitignore(82B)
----hparam.py(2KB)
----data_load.py(2KB)