VideoRefer是浙江大学和阿里达摩学院联合推出的,专门用在视频中对象的感知和推理。基于增强视频大型语言模型(Video LLMs)的空间-时间理解能力,让模型能在视频中对任何对象进行细粒度的感知和推理。VideoRefer基于三个核心组件实现:VideoRefer-700K数据集,提供大规模、高质量的对象级视频指令数据;VideoRefer模型,配备多功能空间-时间对象编码器,支持单帧和多帧输入,实现对视频中任意对象的精确感知、推理和检索;VideoRefer-Bench基准,用在全面评估模型在视频指代任务中的性能,推动细粒度视频理解技术的发展。

VideoRefer – 浙大联合阿里达摩学院推出的视频对象感知与推理技术  第1张
(图片来源网络,侵删)
VideoRefer – 浙大联合阿里达摩学院推出的视频对象感知与推理技术  第2张
(图片来源网络,侵删)