MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。能实现图像的自然、实时语音交互,将语音和视觉信息相结合,让用户可以通过语音与模型交流图像内容。模型在 Moshi 的 7B 基础架构上,增加了约 206M 的适配器参数,集成了 400M 的 PaliGemma2 视觉编码器。通过跨注意力机制和门控机制,MoshiVis 能将视觉信息自然地融入语音流中,保持低延迟和自然对话风格。支持 PyTorch、Rust 和 MLX 三种后端,推荐使用 Web UI 前端进行交互。

(图片来源网络,侵删)

(图片来源网络,侵删)
全部评论
留言在赶来的路上...
发表评论