IndexTTS 是 B 站推出的工业级可控(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了 GPT 风格的生成技术,能将文本高效转化为自然流畅的语音。IndexTTS 的优势是对中文文本的处理能力,支持拼音纠正汉字发音,可通过标点符号精准控制停顿,有效解决了多音字和长尾字符的发音问题。 采用混合建模方法,结合汉字和拼音,优化语音生成效果。在性能方面,IndexTTS 的字词错误率(WER)仅为 1.3%,扬声器相似性(SS)达到 0.776,主观音质评分(MOS)为 4.01,表现出色。使用大量数据进行训练,包括 2.5 万小时的中文音频和 9000 小时的英文音频,确保了音质和音色的高质量。

最新自研的IndexTTS2 AI配音模型,能实现精准的时长控制和情感再现,支持音色与情绪独立调整,能在多种语言和风格下生成自然流畅的语音,广泛应用视频配音、语言学习等领域,模型在情感表达和文本准确性上均达到行业领先水平。

IndexTTS – B 站推出的文本转语音模型,支持拼音纠正汉字发音  第1张
(图片来源网络,侵删)
IndexTTS – B 站推出的文本转语音模型,支持拼音纠正汉字发音  第2张
(图片来源网络,侵删)