TimeSuite是上海AI Lab推出的新型框架,能提升多模态大型语言模型(MLLMs)在长视频理解任务中的表现。基于引入高效的长视频处理框架、高质量的视频数据集TimePro用在定位调整,及名为Temporal Grounded Caption的指令调谐任务,明确地将定位监督纳入传统问答格式中。TimeSuite能增强模型对视频内容的时间感知能力,减少幻觉风险,且在长视频问答和时间定位任务上取得显著的性能提升。用视频令牌压缩和时间自适应位置编码等技术手段,TimeSuite让MLLMs能更准确地理解和定位视频中的事件,解锁MLLMs在长视频理解领域的潜力。

(图片来源网络,侵删)

(图片来源网络,侵删)
全部评论
留言在赶来的路上...
发表评论