Satori是 MIT、哈佛大学等机构研究者推出的 7B 参数的大型语言模型,专注于提升推理能力。基于Qwen-2.5-Math-7B,Satori通过小规模的格式微调和大规模的增强学习实现了最先进的推理性能。采用行动思维链(COAT)机制,通过强化学习优化模型性能,具备强大的自回归搜索和自我纠错能力。Satori 在数学推理和跨领域任务中表现出色,展现了优异的泛化能力。Satori 的代码、数据和模型均已开源。

Satori是 MIT、哈佛大学等机构研究者推出的 7B 参数的大型语言模型,专注于提升推理能力。基于Qwen-2.5-Math-7B,Satori通过小规模的格式微调和大规模的增强学习实现了最先进的推理性能。采用行动思维链(COAT)机制,通过强化学习优化模型性能,具备强大的自回归搜索和自我纠错能力。Satori 在数学推理和跨领域任务中表现出色,展现了优异的泛化能力。Satori 的代码、数据和模型均已开源。
全部评论
留言在赶来的路上...
发表评论