Light-R1是360智脑开源的AI模型,专注于数学领域的长思维链推理,具体为 Light-R1-32B。模型基于Qwen2.5-32B-Instruct,用7万条数学数据和两阶段课程学习(SFT+DPO)训练,实现从零超越DeepSeek-R1-Distill-Qwen-32B的性能。在AIME24测试中,Light-R1取得76.6分,显著高于DeepSeek-R1-Distill的72.6分。模型训练成本低,仅需12台H800机器运行6小时,成本约1000美元。模型支持全量开源,包括模型、数据集、训练框架和评测代码,推动开源社区发展,为低成本训练领域专精模型提供参考。


全部评论
留言在赶来的路上...
发表评论