Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在多个基准数据集上表现优异,现已集成至Hugging Face的transformers库,方便开发者使用。模型还支持通过ms-swift框架进行微调,适应特定应用场景。

Qwen2-baidu09Audio – 阿里通义千问团队推出的开源AI语音模型  第1张
(图片来源网络,侵删)
Qwen2-baidu09Audio – 阿里通义千问团队推出的开源AI语音模型  第2张
(图片来源网络,侵删)