Amphion – 开源的全能AI音频项目，面向音频、音乐和语音生成的工具包

baidu09_com 2025-08-27 46 0

Amphion是开源的音频、音乐和语音生成工具包，是香港中文大学（深圳）副教授武执政团队联合上海人工智能实验室和深圳市大数据研究院共同推出的。工具包支持可重复的研究，帮助初级研究人员和工程师快速进入音频、音乐和语音生成领域。Amphion提供多种功能，包括文本转语音（TTS）、歌声合成（SVS）、语音转换（VC）、歌声转换（SVC）、文本转音频（TTA）和文本转音乐（TTM）。集成多种神经声码器，如MelGAN、HiFi-GAN等，及全面的评估指标，确保生成音频的质量和一致性。Amphion的独特之处在于经典模型和架构的可视化功能，有助于研究人员和工程师深入理解模型的内部工作原理。