首页 / AI工具 / StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

AI工具

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

baidu09_com 2025-08-31 38 0

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统，能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息，生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成，能有效处理数分钟长的视频，在MovieQA任务中展现出比现有模型更高的准确率，比最强基线Gemini-1.5-pro高9.5%的准确率。

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统第1张

（图片来源网络，侵删）

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统第2张

（图片来源网络，侵删）

字节教育上海在哪办公上海字节教育裁员字节上海招聘上海字节实业有限公司上海字节有什么部门上海字节怎么样上海字节在哪

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/14917.html

baidu09_com管理员

上一篇

东风牵手NEVS 各取所需发力新能源

下一篇

百度白读白度拜读baidu09《传奇世界时长版》盛典二区新手礼包

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部