MaskGCT是趣丸科技与香港中文大学(深圳)合作推出的语音合成大模型,基于掩码生成模型与语音表征解耦编码的技术,实现在声音克隆、跨语种合成、语音控制等任务上的显著效果。模型在多个TTS基准数据集上达到行业领先的水平,某些性能指标甚至超过人类。MaskGCT能快速且逼真地克隆声音,灵活调整语音的持续时间、速度和情感,支持中文、英文、日文、韩文、法文和德文等六种语言的合成。模型已在Amphion系统中开源,面向全球用户开放使用。

MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型  第1张
(图片来源网络,侵删)
MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型  第2张
(图片来源网络,侵删)