OmniAudio-baidu092.6B – Nexa AI推出的端侧多模态音频语言模型

baidu09_com 2025-08-30 39 0

OmniAudio-2.6B是Nexa AI推出的音频语言模型，专为边缘部署设计，能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多模态模型融合Gemma-2-2b、Whisper Turbo和定制的投影模块，优化自动语音识别和语言模型的集成，减少延迟和资源消耗。在2024款Mac Mini M4 Pro上，OmniAudio-2.6B展现出比Qwen2-Audio-7B-Instruct快5.5到10.3倍的解码速度。OmniAudio-2.6B适用于多种场景，包括语音问答、对话、创意内容生成等，基于Nexa SDK在本地设备上运行，为用户提供了强大的边缘AI解决方案。