文件名称:Korean-FastSpeech2-Pytorch:韩语FastSpeech2的实现
文件大小:571KB
文件格式:ZIP
更新时间:2024-05-25 04:19:09
Python
韩国FastSpeech 2-Pytorch实施 介绍 随着基于深度学习的语音合成技术的最新发展,提出了一种非自回归语音合成模型,以提高自回归模型的慢速语音合成速度。 FastSpeech2是一种非自回归语音合成模型,它从蒙特利尔强制对齐器(M. McAuliffe等,2017)中提取通过提取音素(话音)对齐而获得的时长信息,并预测每个音素的时长。为此。 基于预测的持续时间来确定音素话语对准,并且基于该持续时间来生成与音素相对应的语音。 因此,要学习FastSpeech2,需要在MFA中学习的音素发音对齐信息。 该项目是Microsoft的实现,可在。 此源代码基于ming024的代码,并通过使用提取持续时间来实现。 该项目提供以下贡献。 使它适用于kss数据集的源代码 从蒙特利尔强制对齐器(TextGrid)提取的kss数据集的文本发音持续时间信息 在kss数据集上训练的FastS
【文件预览】:
Korean-FastSpeech2-Pytorch-master
----fastspeech2.py(2KB)
----train.py(10KB)
----synthesize.py(6KB)
----hparams.py(2KB)
----text()
--------__init__.py(2KB)
--------num.py(2KB)
--------cleaners.py(3KB)
--------korean.py(767B)
--------symbols.py(439B)
----utils.py(7KB)
----loss.py(1KB)
----requirements.txt(2KB)
----preprocessed()
--------kss()
----dataset.py(5KB)
----optimizer.py(1KB)
----modules.py(6KB)
----LICENSE(1KB)
----assets()
--------model.png(331KB)
--------tensorboard.png(71KB)
--------melspectrogram.png(159KB)
----README.md(7KB)
----vocoder()
--------vocgan_generator.py(9KB)
----prepare_align.py(205B)
----data()
--------kss.py(5KB)
----transformer()
--------Layers.py(4KB)
--------__init__.py(137B)
--------Modules.py(598B)
--------Constants.py(108B)
--------Models.py(5KB)
--------SubLayers.py(3KB)
----evaluate.py(8KB)
----.gitignore(2KB)
----preprocess.py(2KB)
----audio()
--------stft.py(6KB)
--------audio_processing.py(3KB)
--------__init__.py(67B)
--------tools.py(2KB)