详细介绍
Megatts3 是字节跳动与浙江大学合作开发的一款开源语音合成模型,专注于生成高质量的中英文语音。它的核心模型只有 0.45B 参数,轻量高效,支持中英文混合语音生成和语音克隆。项目托管在 GitHub 上,提供代码和预训练模型供免费下载。Megatts3 能通过几秒钟的音频样本模仿目标声音,还支持调整口音强度。它适用于学术研究、内容创作和开发语音应用,未来会新增发音和时长控制功能。Megatts3 的开源性质和轻量化设计使其成为语音合成领域的重要进步,为语音交互技术带来了新的可能性。
功能特点
- 零样本合成:无需目标说话人的特定语音数据,仅通过少量提示即可生成其语音,实现快速语音克隆。
- 多语言支持:支持中文、英文及中英混合语音合成,解决语言切换时的生硬感。
- 高音质输出:生成的语音自然流畅,音质清晰,与目标说话人高度相似。
- 音色与韵律控制:支持音色调整和韵律控制(如语速、语调),并可模拟不同口音强度。
- 快速克隆:仅需几秒目标说话人的音频样本,即可快速生成其语音。
- 轻量化高性能:模型轻量化设计使其适合在资源受限的设备上运行。
技术特点
- 多条件分类器自由指导(Multi-Condition CFG):独立控制文本内容与说话人音色的引导权重,支持口音强度调整。
- 分段整流流加速(PeRFlow):将生成过程拆分为多段并行计算,速度提升3倍,生成1分钟语音仅需0.124秒。
- WaveVAE 和 Latent Diffusion Transformer:双模块协同工作,实现高质量语音合成。
应用场景
- 内容创作:为视频、博客等生成旁白,支持多语言混合场景。
- 教育:将教材转化为有声内容,助力视障群体及有阅读障碍的用户。
- 智能交互:赋能智能语音助手及智能家居设备,提供自然语音交互体验。
- 车载语音导航:实现语音化输出,提升驾驶安全性。