资讯教程应用下载关于

RSS X 微博

Phi Silica 引入多模态能力，为增强 Copilot+ PC 的 AI 体验打造

资讯 ⏱️ 2025 年 4 月 26 日, 4:54 上午 📝 walkingdog

今天，微软宣布 Phil Silica 小语言模型已经支持多模态能力，为增强 Copilot+ PC 的 AI 体验打造。有了多模态能力加持后，Phi Silica 能让 Copilot+ PC 在本地设备上实现实时的图像识别和描述生成。

微软在去年宣布了 Phi-Silica 小模型，拥有 33 亿参数，是 Phi-3 模型中最小的版本，为 Copilot+ PC 打造。Phi-Silica 是 Windows Copilot 库的一部分。

以下是 Phil Silica 多模态能力的具体介绍：

Phi Silica 引入多模态能力

Phi Silica 是微软首次将多模态能力整合到本地小型语言模型的一次尝试。Phi Silica 的图像理解能力完全可以在本地设备上运行，用户直接在 Copilot+ PC 上的完成图像描述生成、屏幕内容朗读等功能，无需联网。

微软在技术实现上采取了模块化的扩展策略，新增的视觉投影器模型（仅 8000 万参数）与现有的 Florence 图像编码器协同工作，从而大幅降低了系统资源占用，并优化了图像识别效果。

Phi Silica 的多模态能力在无障碍功能方面具有重要意义，尤其是为视障用户提供更智能的图像描述。Windows 讲述人等屏幕阅读器可以基于 Phi Silica 生成更为详细的图像内容讲解。

以下是微软官方给出的图像描述对比参考：

使用Phi Silica进行图像描述的一个例子：

夏威夷欧胡岛地图

目前常见的图像描述示例：

Phi Silica 多模态功能的简短标题/描述：

Phi Silica 多模态功能的无障碍详细描述：

这张图片是一张夏威夷欧胡岛的地图，描绘了各种地点和地理特征。主要地点包括卡胡库角、卡韦拉湾、卡胡库和考艾岛。其他值得注意的地点有莱伊、库劳、豪乌拉、普纳卢、莫库列亚、阿纳胡鲁、怀阿拉瓦、卡阿阿瓦和考科纳胡阿。太平洋也可见。其他提到的地点包括惠特莫尔村、卡拉山、库洛阿角、瓦希瓦和卡内奥赫。图片还显示了米利拉尼、阿希马努、珍珠城和怀皮奥等村庄和城镇。其他值得注意的地点包括卡胡卢、纳纳库利、库劳和怀马纳洛。(翻译，原生暂不支持中文）

目前，Phi Silica 支持英文描述，未来将扩展至多语言版本，以满足全球用户的需求。

微软采用 GPT-4o 作为评估系统，对图像描述质量进行自动打分，确保生成的描述既准确又完整。通过与传统的 Florence 模型比较，Phi Silica 在描述完整性和准确性方面表现更为出色，进一步提升了 AI 生成内容的质量。

各位目前有入手 Copilot+ PC 的打算吗？

名字*

邮箱

0 评论

最旧