文件名称:mellotron:梅洛特隆
文件大小:3.25MB
文件格式:ZIP
更新时间:2024-05-24 09:43:44
JupyterNotebook
拉斐尔·瓦莱(Rafael Valle)*,杰森·李(Jason Li)*,瑞安·普伦格(Ryan Prenger)和布莱恩·卡坦扎罗(Bryan Catanzaro) 在我们最近的我们提出了Mellotron:基于Tacotron 2 GST的多扬声器语音合成模型,该模型可以进行语音表情和唱歌,而无需情感或唱歌训练数据。 通过明确地根据音频信号或乐谱中的节奏和连续音高等高线,Mellotron能够生成多种样式的语音,从朗读的语音到富有表现力的语音,从缓慢的抽奖到说唱,从单调的声音到唱歌的声音。 请访问我们的以获取音频样本。 先决条件 NVIDIA GPU + CUDA cuDNN 设置 克隆此仓库: git clone https://github.com/NVIDIA/mellotron.git CD进入此仓库: cd mellotron 初始化子模块: git submod
【文件预览】:
mellotron-master
----multiproc.py(647B)
----distributed.py(7KB)
----loss_scaler.py(4KB)
----loss_function.py(673B)
----waveglow()
----train.py(11KB)
----filelists()
--------libritts_speakerinfo.txt(122KB)
--------ljs_audiopaths_text_sid_train_filelist.txt(1.55MB)
--------ljs_audiopaths_text_sid_val_filelist.txt(7KB)
--------libritts_train_clean_100_audiopath_text_sid_shorterthan10s_atleast5min_train_filelist.txt(2.57MB)
--------libritts_train_clean_100_audiopath_text_sid_atleast5min_val_filelist.txt(27KB)
----data_utils.py(6KB)
----stft.py(6KB)
----.gitmodules(86B)
----hparams.py(4KB)
----text()
--------cmudict.py(2KB)
--------numbers.py(2KB)
--------__init__.py(3KB)
--------LICENSE(1KB)
--------cleaners.py(2KB)
--------symbols.py(812B)
----utils.py(1KB)
----audio_processing.py(3KB)
----mellotron_logo.png(158KB)
----model.py(27KB)
----requirements.txt(155B)
----inference.ipynb(806KB)
----modules.py(6KB)
----LICENSE(1KB)
----README.md(3KB)
----mellotron_utils.py(15KB)
----plotting_utils.py(2KB)
----layers.py(4KB)
----data()
--------mozart_requiem_kyrie_satb.musicxml(517KB)
--------example1.wav(172KB)
--------examples_filelist.txt(134B)
--------cmu_dictionary(3.55MB)
--------debussy_prelude_lyrics.musicxml(20KB)
--------example2.wav(104KB)
--------haendel_hallelujah.musicxml(288KB)
----logger.py(2KB)
----yin.py(4KB)
----fp16_optimizer.py(17KB)