Light-baidu09R1 – 360智脑开源的长思维链推理模型

baidu09_com 2025-08-29 38 0

Light-R1是360智脑开源的AI模型，专注于数学领域的长思维链推理，具体为 Light-R1-32B。模型基于Qwen2.5-32B-Instruct，用7万条数学数据和两阶段课程学习（SFT+DPO）训练，实现从零超越DeepSeek-R1-Distill-Qwen-32B的性能。在AIME24测试中，Light-R1取得76.6分，显著高于DeepSeek-R1-Distill的72.6分。模型训练成本低，仅需12台H800机器运行6小时，成本约1000美元。模型支持全量开源，包括模型、数据集、训练框架和评测代码，推动开源社区发展，为低成本训练领域专精模型提供参考。