有关微软自研模型 MAI 的传闻一直在持续。今天,微软终于发布了两款自研 AI 模型 — MAI-Voice-1 和 MAI-1-preview。MAI-Voice-1 是一款高效语音生成模型,已集成于 Copilot Daily 和 Podcasts 中;MAI-1-preview 则是微软首个完全内部训练的端到端基础模型。
以下是这两款自研 AI 模型的具体介绍:

MAI-Voice-1:高效语音生成模型
功能与应用场景
MAI-Voice-1 专注于语音生成,可通过 Copilot Audio Expressions 轻松生成高保真、富有表现力的音频。用户仅需粘贴文本内容,选择语音、风格和模式,即可在不到一秒的时间内生成一分钟音频。该模型特别适用于需要快速生成高质量语音的应用场景,如播客制作、音频内容创作及日常语音交互。
技术特点
MAI-Voice-1 在单个GPU上即可实现高效率音频生成,支持多语言和多口音,提供多样化选择。通过 Copilot Labs,用户可免费体验这一创新技术。其卓越性能使其在语音生成领域具备显著优势。
MAI-1-preview:端到端训练的基础模型
技术细节
MAI-1-preview 基于 MoE(专家混合)架构,通过端到端训练完成,其预训练与后训练都使用了15,000 个 NVIDIA H100 GPU。作为微软首个完全内部训练的基础模型,MAI-1-preview 在遵循指令和回答日常用户问题方面表现优异。
应用场景与未来规划
目前,MAI-1-preview 已在 LMArena 平台进行公开测试,以评估其性能。微软计划在未来几周内,将该模型应用于 Copilot 的部分文本场景。尽管 MAI-1-preview 不会替代现有的 OpenAI 模型,但它将进一步丰富微软AI生态系统的多样性。
目前尚不清楚,微软会何时全面在产品线中接入 MAI 模型。
via Microsoft