MegaTTS 3 是由字节跳动与浙江大学联合推出的新一代语音合成模型,基于 PyTorch 实现。其核心创新在于结合了稀疏对齐增强的潜在扩散变换器(Sparse Alignment Enhanced Latent Diffusion Transformer),仅需 0.45B 参数量即可实现高质量的跨语言语音克隆与可控合成。
什么是 MegaTTS3?
MegaTTS3 是字节跳动最新研发并开源的新一代文本转语音模型。它的核心目标是生成高度自然、富有情感并且与目标说话人音色高度相似的语音。
与许多大型模型不同,MegaTTS3 在追求高质量的同时,也注重模型的效率和轻量化。其主要特点包括:
- 高质量语音合成: 旨在生成清晰、自然、韵律丰富的语音。
- 中英双语支持: 无缝支持中文和英文的文本输入,甚至能在同一段语音中实现自然的代码切换(Code-Switching)。
- 高质量语音克隆: 能够学习并模仿目标说话人的独特音色,实现个性化语音合成。
- 轻量级架构: 其核心 TTS Diffusion Transformer 主干网络参数量仅为 0.45B,相对高效。
- 可控性: 支持对部分语音属性进行控制,如口音强度等。
字节跳动推出语音黑科技MegaTTS 3
轻量化颠覆传统:
仅需0.45亿参数,单条语音即可克隆音色!支持CPU运行,30秒生成高保真语音,手机端也能轻松操作,效率碾压同类模型!
快速入门指南
环境配置
推荐使用 Conda 创建 Python 3.9 环境:
conda create -n megatts3-env python=3.9 | |
conda activate megatts3-env | |
pip install -r requirements.txt |
模型下载
预训练模型可通过以下渠道获取:
重要提示
出于安全考虑,WaveVAE 编码器参数未公开。用户需使用预提取的声学潜变量(下载链接),要求参考音频与.npy
潜变量文件置于同一目录。
实战应用
基础语音合成
# 中文合成示例 | |
CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py \ | |
–input_wav ‘assets/Chinese_prompt.wav’ \ | |
–input_text “另一边的桌上,一位读书人嗤之以鼻道,’佛子三藏,神子燕小鱼是什么样的人物…” \ | |
–output_dir ./gen | |
# 英文合成示例(增强表现力) | |
CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py \ | |
–input_wav ‘assets/English_prompt.wav’ \ | |
–input_text “As his long promised tariff threat turned into reality this week…” \ | |
–p_w 2.0 –t_w 3.0 |
Web 交互界面
支持实时试听与参数调节:
CUDA_VISIBLE_DEVICES=0 python tts/gradio_api.py
相关导航
暂无评论...