MetaStone-L1-7B 是 MetaStone 系列中的轻量级推理模型,专为提升复杂下游任务的性能而设计。在数学和代码等核心推理基准测试中达到了并行模型的顶尖水平(SOTA),与 Claude-3.5-Sonnet-1022 和 GPT4o-0513 等 API 模型的性能相当。模型基于 DeepSeek-R1-Distill-Qwen-7B 由 GRPO 训练而成。


MetaStone-L1-7B 是 MetaStone 系列中的轻量级推理模型,专为提升复杂下游任务的性能而设计。在数学和代码等核心推理基准测试中达到了并行模型的顶尖水平(SOTA),与 Claude-3.5-Sonnet-1022 和 GPT4o-0513 等 API 模型的性能相当。模型基于 DeepSeek-R1-Distill-Qwen-7B 由 GRPO 训练而成。
全部评论
留言在赶来的路上...
发表评论