VideoRAG – 用于长视频理解的检索增强生成技术

baidu09_com 2025-08-31 35 0

VideoRAG是用于长视频理解的检索增强生成（Retrieval-Augmented Generation）技术。通过提取视频中的视觉对齐辅助文本，帮助大型视频语言模型（LVLMs）更好地理解和处理长视频内容。具体来说，VideoRAG 用开源工具从视频数据中提取音频、文字和对象检测等信息，将这些信息作为辅助文本与视频帧和用户查询一起输入到现有的LVLM中。这种方法计算开销低，易于实现，能与任何LVLM兼容。在多个长视频理解基准测试中，VideoRAG 展现出了显著的性能提升。