AI视频音频 音频创作
MegaTTS3-开源语音合成模型

字节跳动开源的语音克隆模型

标签:

MegaTTS 3 是由字节跳动与浙江大学联合推出的新一代语音合成模型,基于 PyTorch 实现。其核心创新在于结合了稀疏对齐增强的潜在扩散变换器(Sparse Alignment Enhanced Latent Diffusion Transformer),仅需 0.45B 参数量即可实现高质量的跨语言语音克隆与可控合成。

什么是 MegaTTS3?

MegaTTS3 是字节跳动最新研发并开源的新一代文本转语音模型。它的核心目标是生成高度自然、富有情感并且与目标说话人音色高度相似的语音。

与许多大型模型不同,MegaTTS3 在追求高质量的同时,也注重模型的效率和轻量化。其主要特点包括:

  • 高质量语音合成: 旨在生成清晰、自然、韵律丰富的语音。
  • 中英双语支持: 无缝支持中文和英文的文本输入,甚至能在同一段语音中实现自然的代码切换(Code-Switching)。
  • 高质量语音克隆: 能够学习并模仿目标说话人的独特音色,实现个性化语音合成。
  • 轻量级架构: 其核心 TTS Diffusion Transformer 主干网络参数量仅为 0.45B,相对高效。
  • 可控性: 支持对部分语音属性进行控制,如口音强度等。

字节跳动推出语音黑科技MegaTTS 3
轻量化颠覆传统:
仅需0.45亿参数,单条语音即可克隆音色!支持CPU运行,30秒生成高保真语音,手机端也能轻松操作,效率碾压同类模型!

快速入门指南

环境配置

推荐使用 Conda 创建 Python 3.9 环境:

conda create -n megatts3-env python=3.9
conda activate megatts3-env
pip install -r requirements.txt

模型下载

预训练模型可通过以下渠道获取:

重要提示
出于安全考虑,WaveVAE 编码器参数未公开。用户需使用预提取的声学潜变量(下载链接),要求参考音频与 .npy 潜变量文件置于同一目录。


实战应用

基础语音合成

# 中文合成示例
CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py \
  –input_wav ‘assets/Chinese_prompt.wav’ \
  –input_text “另一边的桌上,一位读书人嗤之以鼻道,’佛子三藏,神子燕小鱼是什么样的人物…” \
  –output_dir ./gen
# 英文合成示例(增强表现力)
CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py \
  –input_wav ‘assets/English_prompt.wav’ \
  –input_text “As his long promised tariff threat turned into reality this week…” \
  –p_w 2.0 –t_w 3.0

Web 交互界面

支持实时试听与参数调节:

CUDA_VISIBLE_DEVICES=0 python tts/gradio_api.py

相关导航

暂无评论

暂无评论...