语音克隆神器GPT-SoVITS，只需一分钟素材训练模型，AI文字转语音效果堪比真人

浏览：4722次阅读

GPT-SoVITS 是一款创新的声音克隆工具，它在很短的时间内就能克隆出别人的声音，并且所需的素材量极少。与此前的 SoVITS 相比，GPT-SoVITS 只需要 1 分钟的音源就可以实现高质量的声音克隆，而原先的 SoVITS 则需要半个小时以上的干声音。

功能亮点：

零次 TTS： 用户仅需输入一段 5 秒的语音样本，GPT-SoVITS-WebUI 就能立即将其转换为文本，实现即时的语音到文本转换。
少次 TTS： 通过对模型进行微调，即使是 1 分钟的训练数据也能显著提升语音的相似度和真实感，这对个性化语音合成非常关键。
跨语言支持： GPT-SoVITS-WebUI 能够处理与训练数据集不同语言的语音，目前支持英语、日语和中文，大大拓宽了应用范围。
WebUI 集成： 集成了多种 AI 工具，包括语音伴奏分离、自动训练集分割、中文自动语音识别 (ASR) 和文本标注，方便用户创建训练数据集和 GPT/SoVITS 模型。

下载安装：

GPT-SoVITS 官方 Github 地址：https://github.com/RVC-Boss/GPT-SoVITS

一键启动整合包 下载地址：

百度网盘链接【点击前往】（要氪超级会员才能满速下载）
https://www.123pan.com/s/5tIqVv-GVRcv.html（可满速下载但是要注册账号）

切片工具和去背景音工具 uvr5 下载 地址：【点击前往】，https://www.123pan.com/s/5X7Bjv-FW8wd.html【123 网盘下载】

注意事项：如果你是 Windows 用户（已在 win>=10 上测试），解压后双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI。

如果您是 Mac 用户，请先确保满足以下条件才能使用 GPU 进行训练和推理：

搭载 Apple 芯片或 AMD GPU 的 Mac
macOS 12.3 或更高版本
已通过运行 xcode-select --install 安装 Xcode 命令行工具

其他 Mac 仅支持使用 CPU 进行推理

下载压缩包 下载地址： https://www.kjvhh.com/gpt-sovits.html，请在此页面上方链接点击下载！
解压压缩包 解压后的路径最好不要包含中文。解压完成后，如下图所示，双击 go-webui.bat 文件运行。

启动 WebUI 在浏览器中打开相应端口地址，即可在浏览器中使用 GPT-SoVITS-WebUI 界面。

使用教程

01 前置数据集获取

1、人声提取： 选择 "0a-UVR5 人声伴奏分离 & 去混响去延迟工具" 页签。我们需要勾选 "是否开启 UVR5-WebUI" 来提取声音，制作干声。

稍等一下，会打开一个新的 WebUI 界面。

我们将在这个界面内完成提取干声的操作。将准备的音频或者视频文件拖放到左下角的框框内。

选择处理的模型。不带和声的音频选 HP2，带和声的音频选 HP5，然后点击 "转换"。

转换成功后，你可以在整合包 \output 路径下的 uvr5 输出目录中找到转换结果。

2、音频切分： 关闭 "是否开启 UVR5-WebUI"，以释放显存。

删除刚刚音频分离路径下的背景声音，并将路径复制到下面的输入框里。

选择 "0b- 语音切分工具" 页签。点击 "开始语音切割"。

完成后，你可以在 \output\slicer_opt 路径下看到切割后的所有音频文件。

3、语音文本识别： 选择 "0c- 中文批量离线 ASR 工具" 页签，将刚刚的分类目录路径复制到下面 ASR 中。

点击 "开启离线批量 ASR"。

完成后，识别结果会保存在 \output\asr_opt 目录下。

4、开启标注工具： 选择 "0d- 语音文本校对标注工具" 页签，把上面 ASR 生成的 list 文件的完整路径填写到下面的标注文件路径中。

点击 "是否开启打标 WebUI"，系统会提示打标工具已开启。稍等一会儿，会弹出新的 WebUI 窗口，这就是标注工具的 WebUI 界面。

在这个界面里面进行文本校对，修改标点符号与停顿一致。如果听不清，有杂音，语速乱的，建议删除。或者回去进行音源调整。

删除方式是先勾选，然后点击 "删除"。一定要点 "上一页" 和 "下一页" 查看全部的，以免漏下。校对无误后点击保存，提交文本。

数据会保存到 slicer_opt.list 中。至此，我们已经完成了前置获取数据集的工作。

02 训练模型

1、训练集格式化： 点击 "1A- 训练集格式化工具"，进入训练集格式化界面。填写训练的模型名称，填写上面数据集的 list 目录和音频切分的目录。

点击下面按钮 "开启一键三连"。

一键三连顺利结束后，我们会在 \logs\buyansu（你设置的模型名）文件下看见 23456。这里就得到了后面需要训练的特征缓存文件。

2、微调训练： 点击 "1B- 微调训练" 页签，进入子模型训练界面。

我们需要开启两个微调子模型的训练，参数默认即可。推荐使用 20 系以上的 N 卡，8G 以上的显存。如果显存不够，可以降低 batch_size 的数值。

然后依次点击 "开始 SoVITS 训练" 和 "开始 GPT 训练"。VITS 训练需要一些时间，请耐心等待。

训练完成后，微调模型就已经准备好了。

03 声音合成

推理： 点击 "1C- 推理" 页签，进入推理界面。首先我们点击 "刷新模型路径按钮"，将刚刚训练的子模型拉取进来。

然后点击 "是否开启 TTS 推理 WebUI" 按钮，即可开启推理。稍作等待，会弹出推理 WebUI 界面。

推理前我们需要给它一个目标音色参考音频，可以在之前切分的路径下取一个音频。我们将音频和文字，还有语音填入推理界面相应的位置。

然后将我们想说的文本，填写到下面。并且选择一种切分方式，或者自己手动切分。

最后点击 "合成语音"。输出完成后可以试听一下效果：

到此，推理部分完。我们现在已经获得了一个训练完成的 TTS 模型。可以在推理界面输入任何文本，让其进行朗读。

后续的变声部分还在更新当中。

结语：

GPT-SoVITS-WebUI 凭借其强大的功能和易用性，为语音技术的爱好者和开发者提供了一个强大的工具。它开创性的加入了 GPT 模型的机制，并以参考语音做为提示，非常好的解决了语音克隆的声音泄漏问题，生成的语音无论在音质还是真实度上，综合表现都非常不错。

正文完

发表至：软件工具

2024-01-28

3

ChatGPT 语音功能完全免费了！安卓华为苹果手机ChatGPT APP安装方法

打开win11系统的Copilot，内嵌GPT-4的Copilot怎么才能使用？

一句话让AI完成自动化办公， Open Interpreter 让大语言模型在本地部署运行

iPhone 16 必看！Siri 接入 DeepSeek V3-0324 联网版，变身丝滑AI助手，语音图片视觉对话媲美 Apple Intelligence

免费CHATGPT中文版国内直接用，完美复刻ChatGPT官网，PandoraNEXT部署使用教程

语音克隆神器GPT-SoVITS，只需一分钟素材训练模型，AI文字转语音效果堪比真人

功能亮点：

下载安装：