StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成,能有效处理数分钟长的视频,在MovieQA任务中展现出比现有模型更高的准确率,比最强基线Gemini-1.5-pro高9.5%的准确率。

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统  第1张
(图片来源网络,侵删)
StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统  第2张
(图片来源网络,侵删)