今天,微软宣布 Phil Silica 小语言模型已经支持多模态能力,为增强 Copilot+ PC 的 AI 体验打造。有了多模态能力加持后,Phi Silica 能让 Copilot+ PC 在本地设备上实现实时的图像识别和描述生成。
微软在去年宣布了 Phi-Silica 小模型,拥有 33 亿参数,是 Phi-3 模型中最小的版本,为 Copilot+ PC 打造。Phi-Silica 是 Windows Copilot 库的一部分。
以下是 Phil Silica 多模态能力的具体介绍:
多模态能力扩展到小语言模型
Phi Silica 是微软首次将多模态能力整合到本地小型语言模型的一次尝试。Phi Silica 的图像理解能力完全可以在本地设备上运行,用户直接在 Copilot+ PC 上的完成图像描述生成、屏幕内容朗读等功能,无需联网。
微软在技术实现上采取了模块化的扩展策略,新增的视觉投影器模型(仅 8000 万参数)与现有的 Florence 图像编码器协同工作,从而大幅降低了系统资源占用,并优化了图像识别效果。
改善无障碍体验:智能描述更为详尽
Phi Silica 的多模态能力在无障碍功能方面具有重要意义,尤其是为视障用户提供更智能的图像描述。Windows 讲述人等屏幕阅读器可以基于 Phi Silica 生成更为详细的图像内容讲解。
以下是微软官方给出的图像描述对比参考:
使用Phi Silica进行图像描述的一个例子:
夏威夷欧胡岛地图
目前常见的图像描述示例:
- 一张岛屿的地图
Phi Silica 多模态功能的简短标题/描述:
- 这张图片描绘了夏威夷欧胡岛的地图,显示了卡胡库角、卡韦拉湾、卡胡库等地点以及其他村庄,包括珍珠城和伊娃海滩。(翻译,原生暂不支持中文)
Phi Silica 多模态功能的无障碍详细描述:
- 这张图片是一张夏威夷欧胡岛的地图,描绘了各种地点和地理特征。主要地点包括卡胡库角、卡韦拉湾、卡胡库和考艾岛。其他值得注意的地点有莱伊、库劳、豪乌拉、普纳卢、莫库列亚、阿纳胡鲁、怀阿拉瓦、卡阿阿瓦和考科纳胡阿。太平洋也可见。其他提到的地点包括惠特莫尔村、卡拉山、库洛阿角、瓦希瓦和卡内奥赫。图片还显示了米利拉尼、阿希马努、珍珠城和怀皮奥等村庄和城镇。其他值得注意的地点包括卡胡卢、纳纳库利、库劳和怀马纳洛。(翻译,原生暂不支持中文)
目前,Phi Silica 支持英文描述,未来将扩展至多语言版本,以满足全球用户的需求。
精准评估:自动化质量打分系统
微软采用 GPT-4o 作为评估系统,对图像描述质量进行自动打分,确保生成的描述既准确又完整。通过与传统的 Florence 模型比较,Phi Silica 在描述完整性和准确性方面表现更为出色,进一步提升了 AI 生成内容的质量。
各位目前有入手 Copilot+ PC 的打算吗?
via Windows Blog