首页 / AI工具 / MinMo – 阿里通义实验室推出的多模态语音交互大模型

AI工具

MinMo – 阿里通义实验室推出的多模态语音交互大模型

baidu09_com 2025-08-30 36 0

MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型，专注于实现无缝语音交互。MinMo拥有约80亿参数，基于多阶段训练，在140万小时多样化语音数据和广泛语音任务上进行学习。MinMo支持根据用户指令控制生成音频的情感、方言和说话风格，及模仿特定音色，生成效率超过90%。MinMo支持全双工语音交互，语音到文本延迟约为100毫秒，全双工延迟理论上约为600毫秒，实际约为800毫秒，可实现用户与系统之间的同时双向通信，使多轮对话更加流畅。

MinMo – 阿里通义实验室推出的多模态语音交互大模型第1张

（图片来源网络，侵删）

MinMo – 阿里通义实验室推出的多模态语音交互大模型第2张

（图片来源网络，侵删）

阿里通官网阿里通平台正规吗阿里通网络电话官方网站阿里通app 阿里通电话官网阿里通软件阿里个通

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/14268.html

baidu09_com管理员

上一篇

NLU与NLP主要区别和用例比较

下一篇

机油压力过低

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部