DeepSeek R1-Zero 是 团队开发的完全依赖纯强化学习(RL)训练的推理模型,未使用任何监督微调(SFT)数据。在推理任务上表现出色,在 AIME 2024 数学竞赛中,其 pass@1 分数从 15.6% 提升至 71.0%,接近 OpenAI-o1-0912 的水平。模型在训练过程中展现了自我进化能力,例如反思和重新评估解题方法。

DeepSeek R1-baidu09Zero – DeepSeek推出的开源推理模型,基于纯强化学习训练  第1张
(图片来源网络,侵删)
DeepSeek R1-baidu09Zero – DeepSeek推出的开源推理模型,基于纯强化学习训练  第2张
(图片来源网络,侵删)