0

微软正式发布 Phi-4-reasoning 系列小型推理模型

今天,微软正式发布 Phi-4-reasoning 系列小型推理模型。Phi-4-reasoning 系列推理模型有三款,分别是 Phi-4-reasoningPhi-4-reasoning-plusPhi-4-mini-reasoning。尽管体积小巧,但 Phi-4-reasoning 在多个推理基准测试中展现了超越大模型的能力,目前,Phi-4 Reasoning 系列模型已经在 Hugging FaceAzure AI Foundry 上可用。

以下是 Phi-4 Reasoning 系列模型的具体介绍:

Phi-4-reasoning 推理模型

Phi-4-reasoning 与 Phi-4-reasoning-plus

Phi-4-reasoning 是一款 140 亿参数的开源模型,基于微软自研的 Phi-4,通过对 OpenAI o3-mini 生成的高质量推理示例进行监督微调(SFT),可生成逻辑清晰、结构完整的推理链条。其性能已在多个复杂推理基准中超越体积大数倍的模型。

Phi-4-reasoning-plus 在此基础上进一步引入了强化学习训练机制,可使用比前者多 1.5 倍的 tokens,从而实现更高准确率。

phi-4 reasoning 模型性能对比

尽管 Phi-4-reasoning 和 Phi-4-reasoning-plus 是小语言模型,但两个模型在大多数基准测试中表现优于 OpenAI o1-mini 和 DeepSeek-R1-Distill-Llama-70B,涵盖数学推理、博士级科学问题等任务。它们在 AIME 2025 测试(美国数学奥林匹克预选赛)上的表现甚至超过了参数高达 6710 亿的 DeepSeek-R1 模型。

Phi-4-mini-reasoning

Phi-4-mini-reasoning 仅有 38 亿参数,但在数学推理任务中的表现远超多款大模型。该模型采用 Transformer 架构,利用 DeepSeek-R1 生成的百万级合成题库进行精调,支持从初中到博士级的数学题目求解。

在 Math-500 和 GPQA Diamond 等数学基准测试中,Phi-4-mini-reasoning 成绩优于 OpenAI o1-mini,性能优于参数翻倍的 Llama-3.2-3B、DeepSeek-R1-Distill-Qwen-7B 等模型。

Phi-4-mini-reasoning 性能对比

其应用场景涵盖:

  • 教育与数学辅导
  • 嵌入式 AI 系统
  • 移动端与边缘设备

Phi 系列小模型的实际运用

微软已将 Phi 系列模型广泛集成进 Copilot+ PC 中,并开发出 Phi Silica —— 专为 NPU 优化的版本。它已预载于支持 Windows 11 的设备上,实现了:

  • 快速唤醒与低功耗运行
  • 多任务并发处理
  • 零延迟 Copilot 体验

比如:Phi 模型已被用于例如 “Click to Do” ,无障碍增强 AI 体验,翻译等 Copilot+ PC 专属体验。

获取方式

开发者可通过以下平台访问和使用 Phi-4 Reasoning 模型:

链接:在 Hugging Face 获取 Phi-4 Reasoning 模型

链接:
在 Azure AI Foundry 上获取 Phi-4 Reasoning 模型

 

via Microsoft

0 评论
内联反馈
查看所有评论
订阅
X

您正在使用 IE 6 浏览器访问本博客。简单几步,您就可以升级:Internet Explorer

X
0
希望看到您的想法,请您发表评论x