HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集,包含500个第一人称视角视频,时长20至120分钟,覆盖77种日常活动,能评估多模态模型对长视频的理解能力。数据集基于一系列任务,如总结、感知、视觉推理和导航,测试模型对视频中多个时间片段信息的识别和综合能力,推动长视频理解技术的发展。

HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集  第1张
(图片来源网络,侵删)
HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集  第2张
(图片来源网络,侵删)