Scribe 是 推出的高精度模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到96.7%和98.7%,在小语种上也有出色表现。Scribe 能区分多达32位说话者,检测笑声、音效等非语言事件,提供结构化的JSON输出,包含单词级时间戳和说话者标注。

Scribe – ElevenLabs 推出的高精度语音转文本模型  第1张
(图片来源网络,侵删)
Scribe – ElevenLabs 推出的高精度语音转文本模型  第2张
(图片来源网络,侵删)