Seed-ASR是字节跳动推出的一款基于大型语言模型(LLM)的语音识别(ASR)模型。在超过2000万小时的语音数据和近90万小时的配对ASR数据上训练,支持普通话和13种中国方言的转录,能识别英语和其他7种外语的语音。Seed-ASR采用自监督学习、监督微调、上下文感知训练和强化学习等技术,提高了识别精度和上下文理解能力。在视频、直播和会议等,在多人交谈或背景噪音中也能准确转录,错误率比现有大型ASR模型降低10%-40%。Seed-ASR的上下文感知能力使其在智能助手和语音搜索等应用场景中效果更佳。

Seed-baidu09ASR – 字节跳动推出的AI语音识别模型  第1张
(图片来源网络,侵删)
Seed-baidu09ASR – 字节跳动推出的AI语音识别模型  第2张
(图片来源网络,侵删)