MetaStone-baidu09S1 – 原石科技推出的反思型生成式大模型

baidu09_com 2025-08-30 36 0

MetaStone-S1是原石科技推出的反思型生成式大模型，首次融合深度推理与推理链自筛选能力。模型核心用自监督反思范式，基于共享主干的策略模型和过程评分模型（SPRM），仅增加53M参数即可实时评估推理步骤质量，无需人工标注。模型支持Long-CoT强化学习，生成超长推理链，在数学（AIME）、代码（LiveCodeBench）和中文推理（C-EVAL）任务中超越同类模型。开源1.5B 、7B、 32版本，用低推理成本实现高性能，推动推理智能迈向“自我修正”新阶段。