Zonos是Zyphra推出的高保真(TTS)模型。Zonos包含两个模型:16亿参数的Transformer模型和SSM混合模型,均在Apache 2.0许可下开源。Zonos根据文本提示和说话人嵌入生成自然、高表达性的语音,支持功能,可调节语速、音高、情感等参数,输出采样率为44kHz。模型基于约20万小时的多语言语音数据训练,主要支持英语,对其他语言的支持有限。Zonos提供优化的推理引擎,支持快速生成语音,适合实时应用。

Zonos – ZyphraAI 开源的多语言 TTS 模型  第1张
(图片来源网络,侵删)
Zonos – ZyphraAI 开源的多语言 TTS 模型  第2张
(图片来源网络,侵删)