Nova Sonic 是亚马逊推出的新型生成式 AI 语音模型。将语音理解与生成能力整合到一个模型中,能根据说话者的语调、风格等声学上下文调整生成的语音响应,对话更自然。Nova Sonic 支持多语言,目前对美国英语和英国英语的语音理解表现出色,支持多种说话风格和不同口音。平均单词错误率低至4.2%,在多语言 LibriSpeech 基准测试中表现优于 OpenAI 的 GPT-4o-transcribe 模型。

Nova Sonic – 亚马逊推出的新型生成式 AI 语音模型  第1张
(图片来源网络,侵删)
Nova Sonic – 亚马逊推出的新型生成式 AI 语音模型  第2张
(图片来源网络,侵删)