Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未见图像的问题。VSA在开放集和封闭集问答测试中表现出色,显著优于包括LLaVA-1.6-34B、Qwen2-VL-72B和InternVL2-76B在内的其他模型。Vision Search Assistant能广泛应用于现有VLMs,增强处理新图像和事件的能力。

Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架  第1张
(图片来源网络,侵删)
Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架  第2张
(图片来源网络,侵删)