Ultravox – 端到端多模态大模型，直接理解文本和人类语音

baidu09_com 2025-08-31 37 0

Ultravox是新型的多模态大型语言模型（LLM），能直接理解文本和人类语音，无需依赖单独的自动（ASR）阶段。基于多模态投影器技术将音频数据转换为高维空间表示，与LLM直接耦合，显著减少处理延迟，提高响应速度。Ultravox在Llama 3、Mistral和Gemma等模型上训练，具备快速处理音频输入的能力，Ultravox 0.4版本首次令牌生成时间约为150毫秒，每秒处理约60个令牌。未来计划，Ultravox能直接生成语音流，进一步增强与人类的自然交流。