Xiaomi MiMo 是小米开源的首个推理(Reasoning)大模型,支持提升模型在复杂推理任务中的表现。模型基于联动预训练和后训练,挖掘大量富推理语料并采用创新的强化学习算法,显著提升数学推理和代码生成能力。MiMo 仅用 7B 参数规模,在公开测评集上超越 OpenAI 的 o1-mini 和阿里 Qwen 的 等更大规模模型。Xiaomi MiMo包含4 个模型版本,预训练模型MiMo-7B-Base、监督微调模型MiMo-7B-SFT、强化学习模型MiMo-7B-RL和MiMo-7B-RL-Zero已开源至 HuggingFace,为开发者提供强大的推理工具。


全部评论
留言在赶来的路上...
发表评论