首页 / AI工具 / MoshiVis – Kyutai 开源的多模态实时语音模型

AI工具

MoshiVis – Kyutai 开源的多模态实时语音模型

baidu09_com 2025-08-30 39 0

MoshiVis 是 Kyutai 推出的开源多模态语音模型，基于 Moshi 实时对话语音模型开发，增加了视觉输入功能。能实现图像的自然、实时语音交互，将语音和视觉信息相结合，让用户可以通过语音与模型交流图像内容。模型在 Moshi 的 7B 基础架构上，增加了约 206M 的适配器参数，集成了 400M 的 PaliGemma2 视觉编码器。通过跨注意力机制和门控机制，MoshiVis 能将视觉信息自然地融入语音流中，保持低延迟和自然对话风格。支持 PyTorch、Rust 和 MLX 三种后端，推荐使用 Web UI 前端进行交互。

MoshiVis – Kyutai 开源的多模态实时语音模型第1张

（图片来源网络，侵删）

MoshiVis – Kyutai 开源的多模态实时语音模型第2张

（图片来源网络，侵删）

mojang开源开源mock 开源mod mock server 开源开源mooc cimoc开源

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/14337.html

baidu09_com管理员

上一篇

什么是Slack GPT？Slack生产力辅助工具

下一篇

嘉实多极护0w40怎么样？极护0w40适合什么车

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部