IndexTTS – B 站推出的文本转语音模型，支持拼音纠正汉字发音

baidu09_com 2025-08-29 53 0

IndexTTS 是 B 站推出的工业级可控（TTS）系统。基于 XTTS 和 Tortoise 模型开发，结合了 GPT 风格的生成技术，能将文本高效转化为自然流畅的语音。IndexTTS 的优势是对中文文本的处理能力，支持拼音纠正汉字发音，可通过标点符号精准控制停顿，有效解决了多音字和长尾字符的发音问题。采用混合建模方法，结合汉字和拼音，优化语音生成效果。在性能方面，IndexTTS 的字词错误率（WER）仅为 1.3%，扬声器相似性（SS）达到 0.776，主观音质评分（MOS）为 4.01，表现出色。使用大量数据进行训练，包括 2.5 万小时的中文音频和 9000 小时的英文音频，确保了音质和音色的高质量。

最新自研的IndexTTS2 AI配音模型，能实现精准的时长控制和情感再现，支持音色与情绪独立调整，能在多种语言和风格下生成自然流畅的语音，广泛应用视频配音、语言学习等领域，模型在情感表达和文本准确性上均达到行业领先水平。