WaveGrad:Google Brain的WaveGrad高保真声码器的实现(论文)

时间:2024-05-04 04:19:52
【文件属性】:

文件名称:WaveGrad:Google Brain的WaveGrad高保真声码器的实现(论文)

文件大小:5.39MB

文件格式:ZIP

更新时间:2024-05-04 04:19:52

text-to-speech speech tts speech-synthesis tts-engines

WaveGrad Google Brain的高保真WaveGrad声码器的实现(PyTorch)()。 GitHub上的第一个实现,可高质量生成6次迭代。 地位 记录的API。 高保真一代。 多迭代推理支持(对于低迭代稳定)。 混合精度支持可实现稳定,快速的培训。 分布式培训支持。 培训还可以在批量大小为96的单个12GB GPU上成功运行。 CLI推理支持。 灵活的体系结构配置,可用于您自己的数据。 流行的GPU和CPU设备上的RTF估算值(请参见下文)。 在RTX 2080 Ti上,100次迭代和更低迭代的推理比实时更快。 6迭代推理比论文中报道的要快。 平行网格搜索最佳的噪声调度。 上载了用于不同迭代次数的生成样本(请参见generated_samples文件夹)。 带有噪声调度的22KHz LJSpeech数据集上的预。 实时因素(RTF) 参数数量:


【文件预览】:
WaveGrad-master
----runs()
--------inference.sh(321B)
--------train.sh(125B)
----utils.py(3KB)
----inference.py(3KB)
----logger.py(3KB)
----model()
--------downsampling.py(2KB)
--------interpolation.py(751B)
--------upsampling.py(3KB)
--------diffusion_process.py(10KB)
--------nn.py(5KB)
--------__init__.py(40B)
--------layers.py(357B)
--------linear_modulation.py(2KB)
--------base.py(235B)
----train.py(10KB)
----schedules()
--------pretrained()
----benchmark.py(7KB)
----LICENSE(1KB)
----configs()
--------default.json(2KB)
----requirements.txt(67B)
----filelists()
--------test.txt(2KB)
--------train.txt(317KB)
----.gitignore(2KB)
----generated_samples()
--------6iters.wav(428KB)
--------12iters.wav(428KB)
--------100iters.wav(428KB)
--------50iters.wav(428KB)
--------7iters.wav(428KB)
--------25iters.wav(428KB)
--------1000iters.wav(428KB)
--------denoising.gif(1.65MB)
----README.md(9KB)
----notebooks()
--------inference.ipynb(1.55MB)
----data.py(3KB)

网友评论