MM-Eureka 是上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员共同开发的多模态推理模型。模型通过基于规则的大规模强化学习(RL),将单模态推理中的关键特性(如稳定的回答长度增长、准确率奖励以及视觉顿悟时刻)扩展到多模态场景。
MM-Eureka 推出两个核心模型:MM-Eureka-8B 和 MM-Eureka-Zero-38B,分别基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。仅使用 54K 图文数据进行规则型强化学习训练,平均性能便超过了使用 1M 数据的 MPO 模型。MM-Eureka-Zero-38B 仅使用 8K 图文数学推理数据,在自建的 K12 基准测试上超越指令模型 8.2%,在 MathVerse 上表现相当。


全部评论
留言在赶来的路上...
发表评论