Ovis2 是阿里巴巴国际团队推出的新型多模态大语言模型,基于结构化嵌入对齐解决视觉与文本模态间的差异。Ovis2继承、优化了 Ovis 系列架构,强化小规模模型的能力密度,基于指令微调和偏好学习显著提升了思维链(CoT)推理能力。Ovis2 引入视频和多图像处理能力,增强多语言支持和复杂场景下的 OCR 能力。Ovis2 系列包含1B、2B、4B、8B、16B 和 34B 六个不同参数规模的模型版本,均在 OpenCompass 多模态评测榜单中展现出卓越性能,在数学推理和视频理解方面表现突出。Ovis2 的开源为多模态大模型的研究和应用提供了新的方向和工具。

(图片来源网络,侵删)

(图片来源网络,侵删)
全部评论
留言在赶来的路上...
发表评论