声音克隆GPT-SoVITS

作者：吴业亮
博客：wuyeliang.blog.****.net

一、原理介绍

GPT-SoVITS，作为一款结合了GPT（生成预训练模型）和SoVITS（基于变分信息瓶颈技术的歌声转换）的创新工具，正在声音克隆领域掀起一场革命。这款工具凭借其强大的少样本学习能力，使得用户仅需极少的语音样本，便能生成高度逼真的声音克隆，为音频创作带来了前所未有的便利。

1、GPT-SoVITS的技术原理与优势

GPT-SoVITS的核心在于其创新的少样本学习算法。这种算法使得工具能够在接收到极少量的语音样本后，快速构建出一个临时的声音模型，并基于此模型生成与原始录音高度相似的声音克隆。具体而言，当用户上传一段时长仅为五秒的音频文件时，GPT-SoVITS便能通过分析录音中的频率、节奏及音色等特征参数，生成与原始录音高达80%-95%相似度的声音克隆。若增加至一分钟的样本量，则可进一步提升克隆质量，创建出几乎与真人无异的高保真度文本到语音（TTS）模型。

GPT-SoVITS的优势不仅在于其少样本学习能力，还在于其跨语言支持、高频优化以及丰富的功能。该工具支持中文、日语、英语、韩语和粤语五种语言的跨语种合成，使得用户可以用一种语言的录音来生成另一种语言的语音，轻松跨越语言界限。此外，针对网络音频中常见的高频缺失、音质沉闷等问题，GPT-SoVITS进行了全面优化，有效补充了缺失的高频，改善了整体音质。同时，该工具还新增了语速调节、无参考文本模式、更优的混合语种切分等实用功能，进一步拓展了其应用场景。

2、GPT-SoVITS的应用场景
GPT-SoVITS凭借其卓越的性能和丰富的功能，在多个领域展现出了巨大的应用潜力。以下是一些典型的应用场景：

个性化语音助手：通过声音克隆技术，用户可以轻松打造个性化的语音助手，为自己的生活和工作提供便利。
游戏角色配音：在游戏开发中，通过采集角色配音演员的少量录音样本，GPT-SoVITS能够生成符合角色设定的声音，大大节省了后期制作时间和成本。
有声读物制作：利用GPT-SoVITS的文本转语音功能，用户可以轻松将文字内容转化为自然流畅的语音输出，为有声读物的制作提供高效工具。
无障碍服务：对于视力障碍人士来说，GPT-SoVITS可以生成他们熟悉的人的声音来播报信息，提供更加贴心和个性化的无障碍服务。
广告配音与营销：在广告行业中，GPT-SoVITS可以生成各种名人或特定角色的声音来配音广告，提高广告的吸引力和影响力。

3、GPT-SoVITS与千帆大模型开发与服务平台
在探讨GPT-SoVITS的应用时，不得不提的是其与千帆大模型开发与服务平台的结合。千帆大模型开发与服务平台提供了丰富的AI模型开发工具和资源，包括模型训练、部署、优化等一站式服务。GPT-SoVITS作为其中的一款优秀工具，可以充分利用平台提供的资源和支持，进一步发挥其声音克隆和文本转语音的优势。

例如，在千帆大模型开发与服务平台上，用户可以更方便地获取GPT-SoVITS的安装包和更新信息，享受平台提供的专业技术支持和服务。同时，用户还可以利用平台提供的模型训练和优化工具，进一步提升GPT-SoVITS的性能和效果。此外，通过与平台上的其他AI模型进行集成和协同工作，GPT-SoVITS还可以拓展更多的应用场景和功能。
4、原理
1）、语音合成
VITS是一种用于端到端文本到语音（TTS）的模型，结合了对抗学习和条件变分自动编码器，旨在生成高质量的语音效果。近年来，虽然已经提出了多种单阶段训练和并行采样的TTS模型，但它们的样本质量往往无法与传统的两阶段系统相媲美。为了解决这个问题，VITS采用了一种并行的端到端方法，能够生成更自然、更真实的声音。

该模型通过标准化流和对抗训练过程增强的变分推理，显著提升了生成建模的表达能力。此外，VITS引入了随机持续时间预测器，能够从输入文本中合成出节奏各异的语音。这种设计允许模型捕捉潜在变量的不确定性，形成了一种自然的一对多关系，使得同一段文本可以以不同的音高和节奏进行多样化的表达。这种灵活性和高质量的输出使VITS在语音合成领域中具备了广泛的应用潜力。

论文地址：https://arxiv.org/pdf/2106.06103
Github地址：https://github.com/jaywalnut310/vits

在这里插入图片描述

2）、 Whisper语音识别
Whisper是OpenAI开发的先进自动语音识别（ASR）系统，经过训练的语料库包含68万小时的多语言（涵盖98种语言）和多任务监督数据。OpenAI认为，这种庞大且多样化的数据集显著提升了系统对各种口音、背景噪音和专业术语的识别能力，使其在实际应用中表现出色。

除了语音识别功能，Whisper还支持多种语言的转录和翻译，能够将非英语语言直接翻译成英语。这种多功能性使得Whisper不仅适用于语音转文字的任务，还能在国际交流、内容创建和教育等领域发挥重要作用。凭借其出色的准确性和灵活性，Whisper为用户提供了一个强大的工具，有助于打破语言障碍，促进沟通与理解。

论文地址：https://github.com/openai/whisper
GitHub地址：https://arxiv.org/pdf/2212.04356

Whisper的基本原理基于一种Transformer序列到序列模型，旨在处理多种语音任务，包括多语言语音识别、语音翻译、口语语言识别以及语音活动检测。通过将这些任务统一表示为一个需要解码器预测的符号序列，Whisper能够有效地替代传统语音处理管道中的多个阶段，简化了处理流程。

该模型采用多任务训练的格式，使用一系列特殊符号作为任务指示符或分类目标。这种设计不仅提升了模型的灵活性，还使其在处理不同类型的语音输入时表现出色。例如，当面对多种语言或不同口音时，Whisper能够利用其训练数据中的丰富信息，快速适应并提高识别准确性。通过这种创新的方法，Whisper在语音处理领域展示了强大的能力，能够满足多样化的用户需求。
在这里插入图片描述

Whisper系统提供了五种不同的模型尺寸，以平衡速度和准确性。每种模型的设计旨在满足不同应用场景的需求，用户可以根据自己的具体要求选择合适的模型。以下是可用模型的名称、对应的大致内存需求和相对速度：

小型模型：内存需求低，速度快，适合实时语音识别任务，但在复杂音频环境中的准确性可能稍逊。
中型模型：提供更好的准确性，同时保持相对较快的速度，适合大多数日常应用。
大型模型：在准确性上有显著提升，适合对精度要求较高的场景，如医疗记录转录和法律文件审阅，但相对速度略慢。
超大型模型：具有出色的语音识别性能，能够处理复杂口音和技术术语，适合专业领域的使用，内存需求较高，速度相对较慢。
特大模型：提供顶尖的准确性，特别适用于高噪声环境和多方对话场景，内存需求极大，速度较慢，适合不需要实时处理的情况。
通过这些不同尺寸的模型，用户可以根据自己的硬件资源和应用需求，灵活选择最合适的选项，以实现最佳的语音识别效果。

5、总结
GPT-SoVITS作为一款革命性的少样本语音转换与合成工具，正在声音克隆领域发挥着越来越重要的作用。其强大的少样本学习能力、跨语言支持、高频优化以及丰富的功能，使得用户能够轻松实现声音克隆和文本转语音等操作。同时，通过与千帆大模型开发与服务平台的结合，GPT-SoVITS还可以进一步拓展其应用场景和功能。相信在未来，GPT-SoVITS将继续引领音频创作领域的发展潮流，为用户带来更多惊喜和可能。在音频创作日益繁荣的今天，GPT-SoVITS无疑为创作者们提供了一个强大的工具。无论是个人娱乐、广告营销还是商业合作，GPT-SoVITS都能发挥其独特的作用，为音频创作领域注入新的活力和创意。随着技术的不断进步和应用场景的不断拓展，我们有理由相信，GPT-SoVITS将会在未来发挥更加重要的作用。

二、环境信息

类别	规格
OS	Ubuntu 20.04
内存	32G
cpu	16core
磁盘	120G
显卡	tesla M40
显卡驱动	520.61.05
cuda	cuda_11.8
cudnn	9.5.1.17_cuda11

三、环境部署

创建GPT-SoVITS需要的环境

# conda create -n GS python=3.9
# conda activate GS

2、conda配置
1）、配置清华镜像源在/root/.condarc

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

您可以遵循上述配置文件中的格式添加第三方源（推荐），或者通过以下命令添加第三方源：

第三方源

conda config --set custom_channels.auto https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/

使用下列命令清除索引缓存。

conda clean -i

3、配置pip 镜像源

# pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

4、GPT-SoVITS安装
1）、 GitHub仓库进行克隆
官网地址：GPT-SoVITSGitHub地址

# git clone https://github.com/RVC-Boss/GPT-SoVITS.git

国内源
git clone https://mirror.ghproxy.com/https://github.com/RVC-Boss/GPT-SoVITS.git

2）、进入安装目录

# cd GPT-SoVITS/

3）、执行安装

# bash install.sh
# apt install ffmpeg
# apt install libsox-dev
# conda install -c conda-forge 'ffmpeg<7'

四、下载模型

1、从GPT-SoVITS Models下载预训练的模型并将其放置在GPT_SoVITS/pretrained_models中。
创建项目的虚拟环境后，激活该环境，并执行：

pip install -U huggingface_hub
export HF_ENDPOINT=https://hf-mirror.com

2、下载lj1995/GPT-SoVITS到GPT_SoVITS/pretrained_models目录

huggingface-cli download --resume-download --local-dir-use-symlinks False lj1995/GPT-SoVITS --local-dir GPT_SoVITS/pretrained_models

3、下载G2PW模型，解压缩并重命名为G2PWModel，然后将它们放在GPT_SoVITS/text中

cd GPT_SoVITS/text
wget https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip
unzip G2PWModel_1.1.zip
mv  G2PWModel_1.1 G2PWModel

4、对于UVR 5（人声/伴奏分离混响去除，另外），从UVR 5权重下载模型并将其放置在tools/uvr5/uvr5_weights中。

huggingface-cli download --resume-download --local-dir-use-symlinks False lj1995/VoiceConversionWebUI --local-dir tools/uvr5/uvr5_weights

将下载的内容拷贝到uvr5_weights目录，内容如下：

(base) root@ubuntu:~/GPT-SoVITS/tools/uvr5/uvr5_weights# ll
total 543500
drwxr-xr-x 3 root root       333 Dec  4 11:10 ./
drwxr-xr-x 6 root root       142 Dec  4 01:48 ../
-rw-r--r-- 1 root root        14 Dec  3 05:31 .gitignore
-rw-r--r-- 1 root root  63454827 Dec  3 23:33 HP2_all_vocals.pth
-rw-r--r-- 1 root root  63454827 Dec  3 23:33 HP2-人声vocals+非人声instrumentals.pth
-rw-r--r-- 1 root root  63454827 Dec  3 23:33 HP3_all_vocals.pth
-rw-r--r-- 1 root root  63454827 Dec  3 23:33 HP5_only_main_vocal.pth
-rw-r--r-- 1 root root  63454827 Dec  3 23:33 HP5-主旋律人声vocals+其他instrumentals.pth
drwxr-xr-x 2 root root        25 Dec  4 01:37 onnx_dereverb_By_FoxJoy/
-rw-r--r-- 1 root root  63666335 Dec  3 23:33 VR-DeEchoAggressive.pth
-rw-r--r-- 1 root root 111925279 Dec  3 23:33 VR-DeEchoDeReverb.pth
-rw-r--r-- 1 root root  63666335 Dec  3 23:33 VR-DeEchoNormal.pth

5、对于中文 ASR（额外功能），从 Damo ASR Model、Damo VAD Model 和 Damo Punc Model 下载模型，并将它们放置在 tools/asr/models 目录中。

# cd GPT-SoVITS/tools/asr/models
# apt-get install git-lfs
# git lfs install
# git clone https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch.git
# git clone https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git
# git clone https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git

五、登录web
1、使用python运行webui.py

# python webui.py

或者这样带语言执行

python webui.py zh_CN

回显如下：

Running on local URL:  http://0.0.0.0:9874

2、改造成service服务，并设置开机启动
创建/etc/systemd/system/GPTSoVits.service

[Unit]
Description=GPTSoVits
After=network.target

[Service]
Type=simple
User=root
WorkingDirectory=/root/GPT-SoVITS
ExecStart=/bin/bash -c 'source /root/miniconda3/bin/activate && conda activate GPTSoVits && python webui.py zh_CN'
Restart=on-failure

[Install]
WantedBy=multi-user.target

设置开机启动

systemctl daemon-reload
systemctl restart GPTSoVits.service
systemctl enable GPTSoVits.service

2、通过 http://192.168.1.6:9874登录

 http://192.168.1.159:9874

五、使用教程
1、快速克隆
点击1-GPT-SoVITS-TTS—>1c推理–>开启TTS推理WebUI，会新弹出一个界面
在这里插入图片描述
新弹出界面http://192.168.1.159:9872/

如果报错：

LookupError: 
**********************************************************************
  Resource cmudict not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('cmudict')

解决办法：

查看nltk.data.path数据目录

(GPTSoVits) root@ubuntu:~# python
Python 3.9.20 (main, Oct  3 2024, 07:27:41) 
[GCC 11.2.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
print(nltk.data.path[0])
>>> print(nltk.data.path[0])
/root/nltk_data

手动下载库，并导入

(GPTSoVits) root@ubuntu:~# wget https://mirror.ghproxy.com/https://github.com/nltk/nltk_data/archive/refs/heads/gh-pages.zip
(GPTSoVits) root@ubuntu:~# unzip gh-pages.zip
(GPTSoVits) root@ubuntu:~# mkdir  /root/nltk_data
(GPTSoVits) root@ubuntu:~# cd /root/nltk_data

(GPTSoVits) root@ubuntu:~/nltk_data# cp -a  ../nltk_data-gh-pages/packages/* .
(GPTSoVits) root@ubuntu:~/nltk_data# ll

请注意，要保证解压后的文件夹和压缩包同名，且压缩包和解压后的文件需要同时存在于目录中，否则将同样报错Resource xxx not found 例如这样：

(base) root@ubuntu:~/nltk_data/taggers# ll
total 31880
drwxr-xr-x  9 root root     4096 Dec  3 08:31 ./
drwxr-xr-x 12 root root      157 Dec  3 08:26 ../
drwxr-xr-x  2 root root       47 Sep 27  2015 averaged_perceptron_tagger/
drwxr-xr-x  2 root root      159 Jul  5 15:58 averaged_perceptron_tagger_eng/
-rw-r--r--  1 root root      156 Jul 29 10:34 averaged_perceptron_tagger_eng.xml
-rw-r--r--  1 root root  1539115 Jul 29 10:34 averaged_perceptron_tagger_eng.zip
drwxr-xr-x  2 root root       50 Jul 13  2016 averaged_perceptron_tagger_ru/
drwxr-xr-x  2 root root      159 Jul  5 17:44 averaged_perceptron_tagger_rus/
-rw-r--r--  1 root root      207 Jul 29 10:34 averaged_perceptron_tagger_rus.xml
-rw-r--r--  1 root root  5997187 Jul 29 10:34 averaged_perceptron_tagger_rus.zip
-rw-r--r--  1 root root      206 Jul 29 10:34 averaged_perceptron_tagger_ru.xml
-rw-r--r--  1 root root  8628828 Jul 29 10:34 averaged_perceptron_tagger_ru.zip
-rw-r--r--  1 root root      145 Jul 29 10:34 averaged_perceptron_tagger.xml
-rw-r--r--  1 root root  2526731 Jul 29 10:34 averaged_perceptron_tagger.zip
drwxr-xr-x  3 root root       39 Aug 26  2013 maxent_treebank_pos_tagger/
drwxr-xr-x  3 root root       21 Jul 11 12:06 maxent_treebank_pos_tagger_tab/
-rw-r--r--  1 root root      171 Jul 29 10:34 maxent_treebank_pos_tagger_tab.xml
-rw-r--r--  1 root root  3731431 Jul 29 10:34 maxent_treebank_pos_tagger_tab.zip
-rw-r--r--  1 root root      167 Jul 29 10:34 maxent_treebank_pos_tagger.xml
-rw-r--r--  1 root root 10156853 Jul 29 10:34 maxent_treebank_pos_tagger.zip
drwxr-xr-x  2 root root     4096 Jul  4  2022 universal_tagset/
-rw-r--r--  1 root root      236 Jul 29 10:34 universal_tagset.xml
-rw-r--r--  1 root root    19095 Jul 29 10:34 universal_tagset.zip

在每个子目录执行

aa=`find  . | grep .zip`
for v  in $aa; do unzip $v; done

验证测试正常

(GPTSoVits) root@ubuntu:~# python
Python 3.9.20 (main, Oct  3 2024, 07:27:41) 
[GCC 11.2.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> from nltk.corpus import cmudict
print(cmudict.entries())
>>> print(cmudict.entries())
[('a', ['AH0']), ('a.', ['EY1']), ('a', ['EY1']), ...]
>>>

2、通过训练合成音频
1）、打开开启UVR5-WebUI
在这里插入图片描述
2）、在新弹出的界面http://192.168.1.159:9873/

在这里插入图片描述
成功后

素材音频在如下目录

点击音频切割
在这里插入图片描述
切割后音频在如下目录

开启降噪

成功后文件如下：

开启离线批量ASR
在这里插入图片描述
开启打标，校准音频和文字内容，

弹出界面http://192.168.1.159:9871/
逐句校对并保存
在这里插入图片描述
开启一键三连

成功后

进行模型微调训练
在这里插入图片描述
如果SoVITS训练报如下错误
解决办法，在webui.py中新增一行如下，并重启服务，再次训练

开启推理，刷新模型，使界面识别到刚才训练的模型

选择最下面的模型

开启推理

弹出界面http://192.168.1.159:9872/
在这里插入图片描述

合成语音，完成！！！

参考：
https://cloud.baidu.com/article/3384362
https://www.bilibili.com/video/BV1a7pEe9EyC?t=721.6
https://github.com/RVC-Boss/GPT-SoVITS
https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

秒客网

声音克隆GPT-SoVITS

相关文章