MetaStone-S1是原石科技推出的反思型生成式大模型,首次融合深度推理与推理链自筛选能力。模型核心用自监督反思范式,基于共享主干的策略模型和过程评分模型(SPRM),仅增加53M参数即可实时评估推理步骤质量,无需人工标注。模型支持Long-CoT强化学习,生成超长推理链,在数学(AIME)、代码(LiveCodeBench)和中文推理(C-EVAL)任务中超越同类模型。开源1.5B 、7B、 32版本,用低推理成本实现高性能,推动推理智能迈向“自我修正”新阶段。


MetaStone-S1是原石科技推出的反思型生成式大模型,首次融合深度推理与推理链自筛选能力。模型核心用自监督反思范式,基于共享主干的策略模型和过程评分模型(SPRM),仅增加53M参数即可实时评估推理步骤质量,无需人工标注。模型支持Long-CoT强化学习,生成超长推理链,在数学(AIME)、代码(LiveCodeBench)和中文推理(C-EVAL)任务中超越同类模型。开源1.5B 、7B、 32版本,用低推理成本实现高性能,推动推理智能迈向“自我修正”新阶段。
全部评论
留言在赶来的路上...
发表评论