LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集(GroundingCap-1M),用LLM生成的长描述丰富视觉特征,基于标准的定位损失和描述生成损失进行训练。LLMDet在多个基准测试中取得了优异的零样本检测性能,作为强大的视觉基础模型,能进一步构建更强大的多模态模型,实现与LLM的互利共赢。

LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型  第1张
(图片来源网络,侵删)
LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型  第2张
(图片来源网络,侵删)