Phi-baidu094-baidu09reasoning – 微软推出的Phi-baidu094推理模型系列

baidu09_com 2025-08-30 36 0

Phi-4-reasoning 是微软推出的 140 亿参数的推理模型，专为复杂推理任务设计。通过监督微调（SFT）训练而成，使用了 OpenAI 的 o3-mini 模型生成的高质量推理演示数据。模型能生成详细的推理链，在推理时有效利用计算资源。 Phi-4-reasoning 在多项基准测试中表现出色，超越了参数规模更大的模型，如 DeepSeek-R1-Distill-Llama-70B。在数学推理、科学问题、编程和算法问题解决等多个领域都有优异表现。Phi-4-reasoning-plus 是在此基础上通过强化学习进一步优化的版本，推理能力更强。Phi-4-mini-reasoning是一个 38 亿参数的紧凑型推理模型，专为资源受限的环境设计，如移动设备或边缘计算场景。通过 DeepSeek-R1 模型生成的合成数据进行微调。