背景:
- 最近基于生成对抗网络(GAN)的声码器取得了一定的进展,这种模型可以基于声学特征生成原始波形。
- 尽管如此,为大量说话者在不同录音环境中合成高保真音频仍然是一个挑战。
BigVGAN介绍:
- 提出了BigVGAN,这是一种泛用性声码器(universal vocoder)。
- 它对各种超出训练分布的场景都有良好的泛化能力,而且无需微调。
技术创新:
- 在GAN生成器中引入了周期激活函数(periodic activation function)和抗混叠表示(periodic activation function)。
- 这些创新带来了音频合成所需的归纳偏置(inductive bias),显著提升了音频质量。
规模扩展:
- 将GAN声码器的规模扩大到了最大112M参数,这在现有文献中是前所未有的。
- 识别并解决了大规模GAN训练中的失败模式,同时保持了高保真输出而不过度规范化。
性能成就:
- 仅在干净的语音数据集LibriTTS上训练的BigVGAN,在各种零样本(超出训练分布)条件下都达到了最先进的性能。
- 这包括未见过的说话者、语言、录音环境、歌声、音乐以及乐器音频。