微软最近对 Azure AI 进行了一系列重要更新,特别是支持 GPT-4.1 和 GPT-4.1-mini 的直接偏好优化(DPO)技术。这些更新不仅提高了模型微调的速度和个性化程度,还增强了数据主权和隐私保护。
具体的更新细节如下:

直接偏好优化(DPO)
直接偏好优化是一种微调技术,可以通过一对优选和非优选响应来调整模型权重。与基于人类反馈的强化学习(RLHF)相比,使用 DPO 的主要优势在于计算量更小、速度更快,同时在模型对齐方面同样有效。公司组织可以利用这种方法训练模型,使其符合特定的品牌声音、安全要求或对话风格。
Azure AI 全球培训扩展
除了使用 DPO 进行模型微调外,微软还将 Azure AI 的全球培训扩展到了包括美国东部、西欧、英国南部、瑞士北部等在内的 12 个新区域。尽管进行了扩展,这仍然被视为公开预览版。
Responses API
微软发布了新的 Responses API,该 API 支持您的微调模型,使开发人员更容易在其他应用程序中使用它们。这个 API 对于代理工作流非常理想,因为它“支持有状态的多轮对话,并允许无缝工具调用,在后台自动整合所有内容”。Responses API 还可以跟踪对话,使模型能够记住上下文。您可以查看模型如何推理答案,它可以让用户在生成回复时检查进度,并支持后台处理,还能与网络搜索和文件查找等工具配合使用。
新功能预告
除此之外,微软还表示还将发布一些其他新功能,包括:
暂停/恢复功能
暂停/恢复功能允许用户在模型训练过程中随时暂停和恢复,提供了更大的灵活性和控制力。这对于需要频繁调整和测试模型的企业来说尤为重要。
持续微调
持续微调功能使得模型可以在不断接收新数据的同时进行微调,从而保持其性能和准确性。这种动态调整机制对于需要实时适应变化的应用场景非常有用。
GPT-4.1-nano
GPT-4.1-nano 是一个轻量级版本的 GPT-4.1,适用于资源有限的环境。它将在上述 12 个新区域中推出,为更多用户提供高效且经济的解决方案。