VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出,将生成首个音频标记块的时间大幅缩短,显著降低流式场景下的延迟。采用四阶段渐进式训练策略,在70亿参数规模下,推理速度比相似规模的开源模型快3至5倍,同时在(ASR)、(TTS)及口语问答(SQA)等任务的基准测试中表现优异。


VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出,将生成首个音频标记块的时间大幅缩短,显著降低流式场景下的延迟。采用四阶段渐进式训练策略,在70亿参数规模下,推理速度比相似规模的开源模型快3至5倍,同时在(ASR)、(TTS)及口语问答(SQA)等任务的基准测试中表现优异。
全部评论
留言在赶来的路上...
发表评论