GPT-SoVITS 是少样本语音转换与语音合成工具。仅需提供 5 秒语音样本即可体验达到 80%~95% 像的语音克隆,若提供 1 分钟语音样本可以逼近真人的效果,且训练出高质量的 TTS 模型。

1.功能说明

  • 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
  • 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
  • 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
  • WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别 (ASR) 和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。

而通过模型训练,该工具能够学习并复制特定说话人的声音特征,包括情感、音色和语速,从而生成与原声音极为相似的合成语音。

同时这个工具支持多种语言的语音合成,目前包括英语、日语和中文。

2.配置要求

Windows

  • 支持 CUDA 的 nVIDIA 显卡,每张拥有至少 6G 以上显存
  • 常见的不能使用的显卡:10系以前的所有卡、1060以下,1660以下,2060以下、3050 4G
  • Windows 10/11 系统

MAC

  • 搭载Apple芯片(M系列芯片)或AMD GPU的Mac(如2019款Mac Pro)
  • macOS 12.3或更高版本
  • 已通过运行xcode-select –install安装Xcode command-line tools

3.操作界面

为了降低使用门槛,GPT-SoVITS提供了集成了声音伴奏分离、自动训练集分割、中文ASR(自动语音识别)和文本标注等工具的WebUI。

这些工具可以帮助初学者轻松创建训练数据集和GPT/SoVITS模型,使得声音克隆技术更加亲民。

GPT-SoVITS-开源语音克隆

下载后,运行VisualStudioSetup.exe进行安装,并选择使用C++的桌面开发组件。GPT-SoVITS-开源语音克隆

安装完成后,运行“更新到项目最新版.bat”和“更新后运行我更新依赖.bat”文件,以确保整合包是最新版本。

使用7-Zip进行解压,避免使用其他可能吞文件的解压工具。解压后,双击go-webui.bat文件打开WebUI界面。确保不要以管理员身份运行。

GPT-SoVITS-开源语音克隆

正常打开后了,稍加等待就会弹出网页。如果没有弹出网页可以复制 http://0.0.0.0:9874 到浏览器打开

GPT-SoVITS-开源语音克隆

打开后的界面是这样:

特别注意:打开的bat不可以关闭!这个黑色的bat框就是控制台,所有的日志都会在这上面呈现,所有的信息以控制台为准。

GPT-SoVITS-开源语音克隆

相关导航

暂无评论

暂无评论...