GPT-SoVITS 是少样本语音转换与语音合成工具。仅需提供 5 秒语音样本即可体验达到 80%~95% 像的语音克隆,若提供 1 分钟语音样本可以逼近真人的效果,且训练出高质量的 TTS 模型。
1.功能说明
- 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
- 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
- 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
- WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别 (ASR) 和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。
而通过模型训练,该工具能够学习并复制特定说话人的声音特征,包括情感、音色和语速,从而生成与原声音极为相似的合成语音。
同时这个工具支持多种语言的语音合成,目前包括英语、日语和中文。
2.配置要求
Windows
- 支持 CUDA 的 nVIDIA 显卡,每张拥有至少 6G 以上显存
- 常见的不能使用的显卡:10系以前的所有卡、1060以下,1660以下,2060以下、3050 4G
- Windows 10/11 系统
MAC
- 搭载Apple芯片(M系列芯片)或AMD GPU的Mac(如2019款Mac Pro)
- macOS 12.3或更高版本
- 已通过运行xcode-select –install安装Xcode command-line tools
3.操作界面
为了降低使用门槛,GPT-SoVITS提供了集成了声音伴奏分离、自动训练集分割、中文ASR(自动语音识别)和文本标注等工具的WebUI。
这些工具可以帮助初学者轻松创建训练数据集和GPT/SoVITS模型,使得声音克隆技术更加亲民。
下载后,运行VisualStudioSetup.exe进行安装,并选择使用C++的桌面开发组件。
安装完成后,运行“更新到项目最新版.bat”和“更新后运行我更新依赖.bat”文件,以确保整合包是最新版本。
使用7-Zip进行解压,避免使用其他可能吞文件的解压工具。解压后,双击go-webui.bat文件打开WebUI界面。确保不要以管理员身份运行。
正常打开后了,稍加等待就会弹出网页。如果没有弹出网页可以复制 http://0.0.0.0:9874 到浏览器打开
特别注意:打开的bat不可以关闭!这个黑色的bat框就是控制台,所有的日志都会在这上面呈现,所有的信息以控制台为准。
相关导航
暂无评论...