MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型,基于强化学习算法(RGPO)显著提升视觉语言模型的推理生成能力。模型用三阶段训练策略,首先构建统一视觉语言模型,基于链式思考(CoT)数据进行监督微调,用 RGPO 算法优化推理生成。MindOmni 在多模态理解与生成任务中表现卓越,在数学推理等复杂场景下展现出强大的推理生成能力,为多模态 AI 的发展开辟新路径。

MindOmni – 腾讯联合清华等机构推出的多模态大语言模型  第1张
(图片来源网络,侵删)
MindOmni – 腾讯联合清华等机构推出的多模态大语言模型  第2张
(图片来源网络,侵删)