文件名称:hifi-gan:高保真
文件大小:607KB
文件格式:ZIP
更新时间:2024-04-07 19:11:44
text-to-speech deep-learning pytorch tts speech-synthesis
HiFi-GAN:高效,高保真语音合成的生成对抗网络 姜俊il,金在贤,裴在京 在我们的,我们提出了HiFi-GAN:一种能够有效生成高保真语音的基于GAN的模型。我们在此存储库中将实现和预训练的模型作为开源提供。 摘要:最近有关语音合成的一些工作已经采用了生成对抗网络(GAN)来生成原始波形。尽管此类方法提高了采样效率和内存使用率,但其采样质量尚未达到自回归和基于流的生成模型的质量。在这项工作中,我们提出了HiFi-GAN,它可以实现高效和高保真语音合成。由于语音音频由具有不同周期的正弦信号组成,我们证明了对音频的周期性模式进行建模对于提高采样质量至关重要。对单个扬声器数据集的主观人工评估(平均意见得分,MOS)表明,我们提出的方法证明了与人类质量的相似性,同时在单个V100 GPU上生成实时音频的22.05 kHz高保真音频的速度比实时速度快167.9倍。我们进一步展示了HiFi-GA
【文件预览】:
hifi-gan-master
----models.py(10KB)
----meldataset.py(6KB)
----utils.py(1KB)
----inference.py(3KB)
----train.py(12KB)
----LICENSE(1KB)
----config_v1.json(762B)
----config_v2.json(762B)
----validation_loss.png(11KB)
----requirements.txt(113B)
----LJSpeech-1.1()
--------validation.txt(30KB)
--------training.txt(2.61MB)
----env.py(394B)
----README.md(5KB)
----inference_e2e.py(2KB)
----config_v3.json(752B)