在 2024 年 12 月,微软推出了 Phi-4 小型语言模型(SLM),在同类产品中具有最先进的性能。今天,微软扩展了 Phi-4 家族,新增了两款模型:Phi-4 multimodal和Phi-4 mini。Phi-4 multimodal支持语音、视觉和文本处理,展现了卓越的多模态能力;而Phi-4 mini则专注于文本任务,提供了高效的文本处理解决方案。
以下是 Phi-4-multimodal 和 Phi-4-mini 的相关介绍:
Phi-4 multimodal
新的 Phi-4 multimodal 模型同时支持语音、视觉和文本,是微软的第一个多模态语言模型,将语音、视觉和文本处理整合到一个统一的架构中。与包括 Google 的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite 在内的其他现有最先进的通用模型相比,Phi-4 multimodal 在多个基准测试中表现更优。
在语音相关的任务中, Phi-4 multimodal 在自动语音识别(ASR)和语音翻译(ST)方面均优于专门的语音模型 WhisperV3 和 SeamlessM4T-v2-Large 。微软表示,该模型在Hugging Face OpenASR 排行榜上取得了顶尖位置,错误率为6.14%。
在视觉相关的任务中, Phi-4 multimodal 在数学和科学推理方面表现出色。在常见的多模态能力,如文档和图表理解、OCR 和视觉科学推理方面,这个新模型与流行的模型 Gemini-2 Flash lit preview 和 Claude-3.5 Sonnet 相当或超越。
Phi-4 mini
Phi-4 mini 是一个包含38亿参数的模型,在文本相关的任务中,包括推理、数学、编程、指令跟随和函数调用方面,均优于多个流行的大规模语言模型。
安全性和可靠性
为了确保这些新模型的安全性和可靠性,微软进行了内部和外部安全专家的测试,并采用了微软 AI 红队(AIRT)制定的战略。通过进一步优化 ONNX Runtime,这两个模型都可以在设备上部署,从而实现跨平台可用性,使其适合低成本和低延迟的场景。
开发者可用性
Phi-4-multimodal 和 Phi-4-mini 模型现在已经在 Azure AI Foundry、Hugging Face 和NVIDIA API 目录中向开发者提供。这些新的 Phi-4 模型代表了高效AI的重要进步,为各种AI应用带来了强大的多模态和文本功能。