开源语音识别
-
发布了文章 2个月前
Ichigo – 开源的多模态AI语音助手,实时处理语音和文本的交织序列
Ichigo是开源的多模态AI语音助手,采用混合模态模型,能实时处理语音和文本的交织序列。基于将语音直接量化为离散令牌,用统一的变换器架构同时处理语音和文本,实现跨模态的联合推理和生成。...
-
发布了文章 2个月前
ChatTTSPlus – 开源文本转语音工具,ChatTTS扩展版支持语音克隆
ChatTTSPlus是ChatTTS的扩展版本,基于集成TensorRT加速、语音克隆和移动模型部署等先进技术,提升语音合成的性能和灵活性。在Windows平台上,能实现超过3倍的加速,从28 tokens/s提升到110...
没有更多内容





