F5-TTS是由上海交通大学开源的一款高性能文本到语音(TTS)系统,基于流匹配的非自回归生成方法,结合扩散变换器(DiT)技术。系统在没有额外监督的情况下,基于零样本学习快速生成自然、流畅且忠实于原文的语音。F5-TTS支持多语言合成,包括中文和英文,能在长文本上进行有效的语音合成。F5-TTS具备情感控制功能,能根据文本内容调整合成语音的情感表现。F5-TTS支持速度控制,支持用户根据需要调整语音的播放速度。系统在10万小时的大规模数据集上进行训练,展现出卓越的性能和泛化能力。F5-TTS应用场景广泛,包括有声读物、语音助手、语言学习、新闻播报、游戏配音等,为各种商业和非商业用途提供强大的语音合成能力。

F5-baidu09TTS – 上海交大推出开源的文本到语音(TTS)合成系统  第1张
(图片来源网络,侵删)
F5-baidu09TTS – 上海交大推出开源的文本到语音(TTS)合成系统  第2张
(图片来源网络,侵删)