Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架

baidu09_com 2025-08-31 34 0

Vision Search Assistant（VSA）是结合视觉语言模型（VLMs）和网络代理的框架，提升模型对未知视觉内容的理解能力。基于互联网检索，使VLMs处理和回答有关未见图像的问题。VSA在开放集和封闭集问答测试中表现出色，显著优于包括LLaVA-1.6-34B、Qwen2-VL-72B和InternVL2-76B在内的其他模型。Vision Search Assistant能广泛应用于现有VLMs，增强处理新图像和事件的能力。