GPT-SoVITS语音合成模型实践

4个月前更新

100

1.概述

GPT-SoVITS是一款开源的语音合成模型，结合了深度学习和声学技术，能够实现高质量的语音生成。其独特之处在于支持使用参考音频进行零样本语音合成，即使没有直接的训练数据，模型仍能生成相似风格的语音。用户可以通过微调模型，进一步提升其性能，以适应特定的应用需求。

2.内容

2.1 GPT-SoVITS简介

这个开源的文本到语音（TTS）项目可以在Linux、MacOS和Windows系统上运行，具有极高的灵活性和兼容性。用户只需提供一段长达1分钟的音频文件，即可轻松克隆特定的声音。该项目支持将汉语、英语和日语的文本转换为克隆的语音，为多语言环境中的应用提供了便利。

项目地址：https://github.com/RVC-Boss/GPT-SoVITS
官方教程：GPT-SoVITS手册

2.2 语音合成

VITS是一种用于端到端文本到语音（TTS）的模型，结合了对抗学习和条件变分自动编码器，旨在生成高质量的语音效果。近年来，虽然已经提出了多种单阶段训练和并行采样的TTS模型，但它们的样本质量往往无法与传统的两阶段系统相媲美。为了解决这个问题，VITS采用了一种并行的端到端方法，能够生成更自然、更真实的声音。

该模型通过标准化流和对抗训练过程增强的变分推理，显著提升了生成建模的表达能力。此外，VITS引入了随机持续时间预测器，能够从输入文本中合成出节奏各异的语音。这种设计允许模型捕捉潜在变量的不确定性，形成了一种自然的一对多关系，使得同一段文本可以以不同的音高和节奏进行多样化的表达。这种灵活性和高质量的输出使VITS在语音合成领域中具备了广泛的应用潜力。

论文地址：https://arxiv.org/pdf/2106.06103
Github地址：https://github.com/jaywalnut310/vits

2.3 Whisper语音识别

Whisper是OpenAI开发的先进自动语音识别（ASR）系统，经过训练的语料库包含68万小时的多语言（涵盖98种语言）和多任务监督数据。OpenAI认为，这种庞大且多样化的数据集显著提升了系统对各种口音、背景噪音和专业术语的识别能力，使其在实际应用中表现出色。

除了语音识别功能，Whisper还支持多种语言的转录和翻译，能够将非英语语言直接翻译成英语。这种多功能性使得Whisper不仅适用于语音转文字的任务，还能在国际交流、内容创建和教育等领域发挥重要作用。凭借其出色的准确性和灵活性，Whisper为用户提供了一个强大的工具，有助于打破语言障碍，促进沟通与理解。

论文地址：https://github.com/openai/whisper
GitHub地址：https://arxiv.org/pdf/2212.04356

Whisper的基本原理基于一种Transformer序列到序列模型，旨在处理多种语音任务，包括多语言语音识别、语音翻译、口语语言识别以及语音活动检测。通过将这些任务统一表示为一个需要解码器预测的符号序列，Whisper能够有效地替代传统语音处理管道中的多个阶段，简化了处理流程。

该模型采用多任务训练的格式，使用一系列特殊符号作为任务指示符或分类目标。这种设计不仅提升了模型的灵活性，还使其在处理不同类型的语音输入时表现出色。例如，当面对多种语言或不同口音时，Whisper能够利用其训练数据中的丰富信息，快速适应并提高识别准确性。通过这种创新的方法，Whisper在语音处理领域展示了强大的能力，能够满足多样化的用户需求。

Whisper系统提供了五种不同的模型尺寸，以平衡速度和准确性。每种模型的设计旨在满足不同应用场景的需求，用户可以根据自己的具体要求选择合适的模型。以下是可用模型的名称、对应的大致内存需求和相对速度：

小型模型：内存需求低，速度快，适合实时语音识别任务，但在复杂音频环境中的准确性可能稍逊。
中型模型：提供更好的准确性，同时保持相对较快的速度，适合大多数日常应用。
大型模型：在准确性上有显著提升，适合对精度要求较高的场景，如医疗记录转录和法律文件审阅，但相对速度略慢。
超大型模型：具有出色的语音识别性能，能够处理复杂口音和技术术语，适合专业领域的使用，内存需求较高，速度相对较慢。
特大模型：提供顶尖的准确性，特别适用于高噪声环境和多方对话场景，内存需求极大，速度较慢，适合不需要实时处理的情况。

通过这些不同尺寸的模型，用户可以根据自己的硬件资源和应用需求，灵活选择最合适的选项，以实现最佳的语音识别效果。

3.GPT-SoVITS安装与部署

3.1 配置要求

1.训练

Windows
- 需支持CUDA的nVIDIA显卡，显存至少6GB。
- 不支持的显卡包括：10系之前的所有型号、GTX 1060及以下、GTX 1660及以下、GTX 2060及以下，以及3050 4GB显卡。
- 操作系统需为Windows 10或11。
- 如果没有显卡，系统会自动切换至CPU训练，但速度非常慢。
macOS
- 需运行macOS 14或更高版本。
- 必须安装Xcode命令行工具，可通过运行xcode-select –install完成安装。
Linux
- 熟练使用Linux环境。
- 需配备显存至少为6GB的显卡。
- 同样，如果没有显卡，系统将自动切换至CPU训练，速度较慢。

2.推理

Windows
- 需支持CUDA的nVIDIA显卡，显存至少4GB（未经过测试，3GB可能无法完成语音合成，因此推测4GB应该足够）。
- 操作系统需为Windows 10或11。
- 如果没有显卡，系统会自动识别并使用CPU进行推理。
macOS
- 需运行macOS 14或更高版本。
- 必须安装Xcode命令行工具，方法同上。
Linux
- 熟练使用Linux环境。
- 需配备显存至少为4GB的显卡。
- 如果没有显卡，系统将自动识别并使用CPU进行推理。

通过这些配置要求，用户可以确保系统能够高效地进行训练和推理，以实现最佳的性能表现。

3.2 Mac环境要求

1.软件要求

确保已通过运行 xcode-select –install 安装 Xcode 命令行工具。
安装 Homebrew 以便于安装必要的软件（如 git、ffmpeg）。

2.安装 conda（如果已安装可以跳过）

测试通过的 Python 和 PyTorch 版本：

Python 3.9、Pytorch 2.2.1

可以通过如下命令检测是否已安装。

conda info

3.安装FFmpeg（如果已安装可以跳过）

可以通过如下命令检测是否已安装以及版本要大于等于6.1

# 安装
brew install ffmpeg
# 检查环境
ffmpeg -version

3.3 项目准备

1.下载项目代码

如果没有安装Git，打开终端执行

brew install git
brew install git-lfs
brew install rust

如果已安装Git，直接在终端中定位到要存放项目的目录（此处以桌面为例，请按实际情况操作,本文档所有路径皆基于此前提），然后克隆仓库到本地，~/代表当前用户目录下

#示例
cd ~/desktop # ~代表当前用户
git clone --depth=1 https://github.com/RVC-Boss/GPT-SoVITS

2.下载预训练模型（直接参考项目README.md就好）

从 GPT-SoVITS Models 下载预训练模型，并将它们解压替换 ~/desktop/GPT-SoVITS/GPT_SoVITS/pretrained_models 。对于 UVR5（人声/伴奏分离和混响移除）（推荐使用UVR5客户端，可以跳过这步）的是UVR5教程从 UVR5 Weights 下载模型，并将它们放置在 ~/GPT-SoVITS/tools/uvr5/uvr5_weights 中。(若使用UVR5客户端,可以跳过这步)对于中文自动语音识别，从 Damo ASR Model 下载模型，将它们解压替换 ~/desktop/GPT-SoVITS/tools/asr/models 。

#一步到位命令
cd ~/desktop/GPT-SoVITS/tools/asr/models
git lfs install
git clone https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git
git clone https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch.git
git clone https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git

3.4 环境准备

1.创建环境

先关闭终端，再打开终端输入

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits

遇到y/n的就一直点y回车
如果遇到：connot find conda，那是因为conda没装好，输入

conda -v

查看有没有装好。可以试试重新打开终端。

2.安装依赖

终端输入

cd ~/desktop/GPT-SoVITS
conda activate GPTSoVits
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt

3.运行

conda activate GPTSoVits
cd ~/desktop/GPT-SoVITS
python webui.py zh_CN

4.训练模型

GPT-SoVITS WebUI提供了全面的功能，包括数据集制作、模型微调训练和语音克隆推理。如果您只是想体验效果，可以直接使用官方分享的语音模型。这种设计使用户能够迅速上手，无需复杂的设置或深入的技术知识。

4.1 数据集处理

1.处理原音频

如果原音频足够干净，比如从游戏中提取的干声，可以跳过这一步。接着，点击开启Open UVR5-WebUI，稍等片刻后，打开浏览器访问 http://localhost:9873。

2.切割音频

在切割音频之前，建议将所有音频文件导入音频软件（如剪映）进行音量调整，将最大音量设置为-9dB到-6dB，过高的音量应予以删除。

打开WebUI后，首先输入原音频的文件夹路径。接下来，可以调整以下建议参数：

min_length：根据显存大小调整，显存越小，值调得越小。
min_interval：根据音频的平均间隔进行调整。如果音频过于密集，可以适当降低该值。
max_sil_kept：此参数会影响句子的连贯性，不同音频需不同调整。如果不确定，建议保持默认值。

点击“开启语音切割”，切割过程将立即完成，默认输出路径为 output/slicer_opt。这样，您就能快速获得处理后的音频片段。

打开切分文件夹，将时长超过“显存数”秒的音频手动切分至该时长以下。例如，如果显卡显存为10GB，建议将超过10秒的音频切分至10秒以下，或者直接删除（稍微超出一点的可以不处理）。过长的音频可能会导致显存爆满。

如果经过语音切割后仍然是一个文件，说明音频过于密集，可以尝试调低min_interval参数以获得更好的切割效果。这样可以确保音频文件在处理时不会超出显存限制。

3.音频降噪

如果原音频足够干净，比如从游戏中提取的干声，可以跳过这一步。输入刚才切割完成音频的文件夹路径，默认为 output/slicer_opt，然后点击“开启语音降噪”。处理完成后，降噪后的音频将默认输出到 output/denoise_opt 目录。这样，您就可以轻松获得清晰的音频文件。

4.打标并校对

只需输入刚才的切分文件夹路径，如果音频经过降噪处理，默认输出路径为 output/denoise_opt；如果没有降噪，则为 output/slicer_opt。

接下来，选择达摩ASR或Fast Whisper，然后点击“开启离线批量ASR”。默认输出路径为 output/asr_opt。请注意，这一步可能需要等待一段时间，因为系统需要下载相应的模型。

达摩ASR：专用于中文识别，效果最佳。
Fast Whisper：支持99种语言，尤其在英语和日语的识别方面表现突出。建议选择large V3模型，语种选择自动（auto）即可。

需要注意的是，由于识别出的文本可能不够准确，建议进行人工校对标注（这一步较耗时间，如果不追求极致效果可以选择跳过）。这里我只是为了演示流程，所以此步骤可以略过。

4.2 微调训练

1. 数据集格式化

在1-GPT-SOVITS-TTS选项卡中，填写以下信息：

实验/模型名：输入实验名称，确保不要使用中文。
文本标注文件：选择您的标注文件。
训练集音频文件目录：指定音频数据集的文件夹路径。

确保所有路径和文件名正确无误，以便顺利进行后续操作。

填写完成后，您可以选择逐个点击下面的三个按钮，等待每个操作执行结束后再点击下一个。如果遇到报错，请查看后台日志，有些报错只需重试即可解决。

另外，您也可以直接使用“开启一键三连”按钮，一键完成这三步操作，节省时间和精力。

2.训练微调模型

选择 1B-微调训练 子选项卡，配置 batch_size 等参数。然后依次点击 开启 SoVITS 训练 和 开启 GPT 训练。请注意，这两个训练任务不能同时进行（除非您有两张显卡）。如果训练过程中中断，您可以直接再点击开始训练，系统会从最近的保存点继续。

对于 SoVITS 训练，建议将 batch_size 设置为显存的一半以下。过高的设置可能导致显存爆满，并不是越高就越快。您需要根据数据集的大小进行调整，而不是严格按照显存的一半来设置。如果出现显存不足的情况，请适当降低 batch_size。以下是针对切片长度为10秒时，不同显存下 SoVITS 训练的最大 batch_size 的实测值供您参考；如果切片更长或数据集更大，则需要适当减少。

接下来，设置训练轮数。SoVITS 模型的轮数可以设置得高一些，因为训练速度较快。而对于 GPT 模型，通常建议设置轮数为10，不要超过20，以确保训练效率和模型性能的平衡。

4.3 推理

1.开启推理服务

选择 1C-推理 子选项卡，配置模型路径（如果模型没有显示出来，可以点击右侧的按钮进行刷新）。然后，点击 开启 TTS 推理 WEBUI 按钮以打开推理页面。在推理页面中，您可以输入文本并生成语音，体验模型的效果。

稍等片刻后，打开浏览器访问 http://localhost:9872。

2.语音克隆推理

在推理页面中，第一步选择所需的模型。第二步上传参考语音和文本（建议时长在5秒到10秒之间，参考音频非常重要，它会影响模型学习语速和语气，请认真选择）。第三步输入您希望用于语音克隆的文本，准备开始生成语音。

5.总结

GPT-SoVITS是一款开源语音合成框架，结合了生成对抗网络和变分推理技术，能够实现高质量的文本到语音转换。该框架支持多种功能，包括模型微调、语音克隆和多语言处理，用户可以通过友好的Web界面轻松操作。GPT-SoVITS尤其适合于生成自然流畅的语音，广泛应用于游戏、影视配音和语音助手等领域。

6.结束语

这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

另外，博主出新书了《深入理解Hive》、同时已出版的《Kafka并不难学》和《Hadoop大数据挖掘从入门到进阶实战》也可以和新书配套使用，喜欢的朋友或同学，可以在公告栏那里点击购买链接购买博主的书进行学习，在此感谢大家的支持。关注下面公众号，根据提示，可免费获取书籍的教学视频。

评分

欢迎为Ta评分