VibeVoice 是微软推出的新型文本到语音(TTS)模型,能生成富有表现力、长篇幅、多说话者的对话式音频,如播客。模型通过创新的连续语音标记化技术和下一代标记扩散框架,结合大型语言模型(LLM),实现高效处理长序列音频的能力,同时保持高保真度。VibeVoice 能合成长达90分钟的语音,支持多达4位不同说话者,突破传统TTS系统的限制,为自然对话和情感表达提供新的可能。


VibeVoice 是微软推出的新型文本到语音(TTS)模型,能生成富有表现力、长篇幅、多说话者的对话式音频,如播客。模型通过创新的连续语音标记化技术和下一代标记扩散框架,结合大型语言模型(LLM),实现高效处理长序列音频的能力,同时保持高保真度。VibeVoice 能合成长达90分钟的语音,支持多达4位不同说话者,突破传统TTS系统的限制,为自然对话和情感表达提供新的可能。
全部评论
留言在赶来的路上...
发表评论