WinDiscover

资讯教程应用下载关于

RSS X 微博

0

Azure AI 更新：GPT-4.1 支持 DPO 技术，并推出全新 Responses API

资讯 ⏱️ 2025 年 7 月 8 日, 6:10 下午 📝 walkingdog

微软最近对 Azure AI 进行了一系列重要更新，特别是支持 GPT-4.1 和 GPT-4.1-mini 的直接偏好优化（DPO）技术。这些更新不仅提高了模型微调的速度和个性化程度，还增强了数据主权和隐私保护。

具体的更新细节如下：

直接偏好优化（DPO）

直接偏好优化是一种微调技术，可以通过一对优选和非优选响应来调整模型权重。与基于人类反馈的强化学习（RLHF）相比，使用 DPO 的主要优势在于计算量更小、速度更快，同时在模型对齐方面同样有效。公司组织可以利用这种方法训练模型，使其符合特定的品牌声音、安全要求或对话风格。

Azure AI 全球培训扩展

除了使用 DPO 进行模型微调外，微软还将 Azure AI 的全球培训扩展到了包括美国东部、西欧、英国南部、瑞士北部等在内的 12 个新区域。尽管进行了扩展，这仍然被视为公开预览版。

Responses API

微软发布了新的 Responses API，该 API 支持您的微调模型，使开发人员更容易在其他应用程序中使用它们。这个 API 对于代理工作流非常理想，因为它“支持有状态的多轮对话，并允许无缝工具调用，在后台自动整合所有内容”。Responses API 还可以跟踪对话，使模型能够记住上下文。您可以查看模型如何推理答案，它可以让用户在生成回复时检查进度，并支持后台处理，还能与网络搜索和文件查找等工具配合使用。

新功能预告

除此之外，微软还表示还将发布一些其他新功能，包括：

暂停/恢复功能

暂停/恢复功能允许用户在模型训练过程中随时暂停和恢复，提供了更大的灵活性和控制力。这对于需要频繁调整和测试模型的企业来说尤为重要。

持续微调

持续微调功能使得模型可以在不断接收新数据的同时进行微调，从而保持其性能和准确性。这种动态调整机制对于需要实时适应变化的应用场景非常有用。

GPT-4.1-nano

GPT-4.1-nano 是一个轻量级版本的 GPT-4.1，适用于资源有限的环境。它将在上述 12 个新区域中推出，为更多用户提供高效且经济的解决方案。

以上就是本次 Azure AI 更新的相关内容~

Azure AI Azure 更新 Direct Preference Optimization DPO GPT-4.1 GPT-4.1 Mini GPT-4.1-nano Microsoft Azure Pause/Resume Responses API RLHF 全球培训多轮对话工具调用微调微软 AI 微软更新持续微调数据主权数据隐私有状态对话轻量级模型隐私保护

名字*

邮箱

0 评论

最旧