LongVU – Meta AI开源的长视频理解模型

baidu09_com 2025-08-29 36 0

LongVU是Meta AI团队推出的长视频理解模型，基于时空自适应压缩机制。解决处理长视频时受限于大型语言模型（LLM）上下文大小的挑战。LongVU基于跨模态查询和帧间依赖性，LongVU能在减少视频标记数量的同时，保留长视频的视觉细节。LongVU用DINOv2特征去除相似度高的冗余帧，用文本引导的跨模态查询进行选择性帧特征减少，在必要时基于时间依赖性进行空间标记压缩。LongVU能有效处理大量帧，在给定的上下文长度内损失很少的视觉信息。