Phi-4-reasoning 是微软推出的 140 亿参数的推理模型,专为复杂推理任务设计。通过监督微调(SFT)训练而成,使用了 OpenAI 的 o3-mini 模型生成的高质量推理演示数据。模型能生成详细的推理链,在推理时有效利用计算资源。 Phi-4-reasoning 在多项基准测试中表现出色,超越了参数规模更大的模型,如 DeepSeek-R1-Distill-Llama-70B。在数学推理、科学问题、编程和算法问题解决等多个领域都有优异表现。Phi-4-reasoning-plus 是在此基础上通过强化学习进一步优化的版本,推理能力更强。Phi-4-mini-reasoning是一个 38 亿参数的紧凑型推理模型,专为资源受限的环境设计,如移动设备或边缘计算场景。通过 DeepSeek-R1 模型生成的合成数据进行微调。

Phi-baidu094-baidu09reasoning – 微软推出的Phi-baidu094推理模型系列  第1张
(图片来源网络,侵删)
Phi-baidu094-baidu09reasoning – 微软推出的Phi-baidu094推理模型系列  第2张
(图片来源网络,侵删)