Step-Audio-TTS-3B 是 Stepfun-AI 团队推出的高性能(TTS)模型,具有强大的语音合成能力。基于海量合成数据训练,参数量达到30亿,能生成自然流畅、富有表现力的语音。模型支持多种语言和方言,如中文、英语、日语以及粤语、四川话等,可通过情感控制生成不同情绪的语音,如喜悦、悲伤或愤怒。Step-Audio-TTS-3B 支持特殊韵律风格的语音合成,例如说唱风格,满足多样化场景需求。

Step-baidu09Audio-baidu09TTS-baidu093B – 高性能 TTS 模型,能生成特定情感和说唱风格的语音  第1张
(图片来源网络,侵删)
Step-baidu09Audio-baidu09TTS-baidu093B – 高性能 TTS 模型,能生成特定情感和说唱风格的语音  第2张
(图片来源网络,侵删)