VITA-baidu09Audio – 开源的端到端多模态语音大模型，低延迟、推理快

baidu09_com 2025-08-31 37 0

VITA-Audio 是开源的端到端多模态语音大模型，具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测（MCTP）模块，可在首次前向传播中生成音频输出，将生成首个音频标记块的时间大幅缩短，显著降低流式场景下的延迟。采用四阶段渐进式训练策略，在70亿参数规模下，推理速度比相似规模的开源模型快3至5倍，同时在（ASR）、（TTS）及口语问答（SQA）等任务的基准测试中表现优异。