Phi-4-reasoning 是微软推出的 140 亿参数的推理模型,专为复杂推理任务设计。通过监督微调(SFT)训练而成,使用了 OpenAI 的 o3-mini 模型生成的高质量推理演示数据。模型能生成详细的推理链,在推理时有效利用计算资源。 Phi-4-reasoning 在多项基准测试中表现出色,超越了参数规模更大的模型,如 DeepSeek-R1-Distill-Llama-70B。在数学推理、科学问题、编程和算法问题解决等多个领域都有优异表现。Phi-4-reasoning-plus 是在此基础上通过强化学习进一步优化的版本,推理能力更强。Phi-4-mini-reasoning是一个 38 亿参数的紧凑型推理模型,专为资源受限的环境设计,如移动设备或边缘计算场景。通过 DeepSeek-R1 模型生成的合成数据进行微调。


全部评论
留言在赶来的路上...
发表评论