AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型,专门用于从任意内容生成音频和音乐。模型能处理多种输入模态,包括文本、视频、图像、音乐和音频,生成高质量的音频输出。核心创新在于多模态掩码训练策略,通过随机掩码输入模态,迫使模型从不完整的输入中学习,增强跨模态表示能力。

AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频  第1张
(图片来源网络,侵删)
AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频  第2张
(图片来源网络,侵删)