Xiaomi MiMo 是小米开源的首个推理(Reasoning)大模型,支持提升模型在复杂推理任务中的表现。模型基于联动预训练和后训练,挖掘大量富推理语料并采用创新的强化学习算法,显著提升数学推理和代码生成能力。MiMo 仅用 7B 参数规模,在公开测评集上超越 OpenAI 的 o1-mini 和阿里 Qwen 的 等更大规模模型。Xiaomi MiMo包含4 个模型版本,预训练模型MiMo-7B-Base、监督微调模型MiMo-7B-SFT、强化学习模型MiMo-7B-RL和MiMo-7B-RL-Zero已开源至 HuggingFace,为开发者提供强大的推理工具。

Xiaomi MiMo – 小米开源的首个推理大模型  第1张
(图片来源网络,侵删)
Xiaomi MiMo – 小米开源的首个推理大模型  第2张
(图片来源网络,侵删)