VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像中的目标物体,如根据描述“图中红色的杯子”找到对应的图像区域。模型基于 架构,结合 DeepSeek 的 R1 方法,通过强化学习优化和监督微调(SFT)提升模型的稳定性和泛化能力。VLM-R1 在复杂场景和跨域数据上表现出色,能更好地理解视觉内容生成准确的指代表达。

VLM-baidu09R1 – 浙大 Om AI Lab 推出的视觉语言模型  第1张
(图片来源网络,侵删)
VLM-baidu09R1 – 浙大 Om AI Lab 推出的视觉语言模型  第2张
(图片来源网络,侵删)