文件名称:Adversarially-Trained-End-to-end-Korean-Singing-Voice-Synthesis-System:经过对抗训练的端到端韩国SInging语音合成系统
文件大小:14.19MB
文件格式:ZIP
更新时间:2024-03-29 07:46:23
对抗训练的端到端韩语语音合成系统 李聚贤,崔亨锡,全昌彬,古政yun,李京九 首尔国立大学音乐与音频研究小组 INTERSPEECH 2019(最佳学生论文奖,口头报告) 抽象的 在本文中,我们提出了一种使用以下三种新颖方法从歌词和符号旋律开始的端到端韩国唱歌语音合成系统:1)语音增强掩蔽,2)文本和音高的局部调节到超分辨率网络,以及3)有条件的对抗训练。 拟议的系统由两个主要模块组成; mel合成网络根据给定的输入信息生成mel频谱图,超分辨率网络将生成的mel频谱图上采样为线性频谱图。 在mel合成网络中,仅应用语音增强蒙版以仅从输入文本生成隐式共振峰蒙版,从而可以更精确地控制歌声。 此外,我们证明了另外两种提议的方法-文本和音高的局部调节以及有条件的对抗训练-对于在超分辨率过程中逼真的人类唱歌声音的生成至关重要。 最后,进行了定量和定性评估,确认了所有提议方法的有效性。 项目页面:
【文件预览】:
Adversarially-Trained-End-to-end-Korean-Singing-Voice-Synthesis-System-master
----INTERSPEECH 2019 AdvEKSVS github.pdf(7.51MB)
----audio_samples_in_PPT()
--------audio_43p.wav(999KB)
--------audio_45p-2.wav(1.48MB)
--------audio_41p.wav(999KB)
--------audio_45p-3.wav(1.25MB)
--------audio_42p.wav(999KB)
--------audio_45p-1.wav(1.54MB)
--------audio_44p.mp3(381KB)
----README.md(2KB)