MMBench-Video是新颖的长视频多题问答基准测试,是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉语言模型(LVLMs)在视频理解方面的能力,用包含丰富视频内容和细粒度能力评估的长视频,弥补现有基准测试在时序理解和复杂任务处理方面的不足。MMBench-Video包含约600个YouTube视频片段,覆盖16个类别,每个视频时长从30秒到6分钟不等,配有由志愿者编写的高质量问答对。基准测试用GPT-4进行自动化评估,提高准确性,与人类判断保持一致。MMBench-Video的推出为研究人员提供了强大的工具,评估和改进视频语言模型的能力。

MMBench-baidu09Video – 上海AI Lab联合多所高校推出的长视频理解基准测试  第1张
(图片来源网络,侵删)