GitHub 正在调整其基础设施战略优先级,将 可用性 放在 容量扩张 和 新功能开发 之前,以应对 AI 代理浪潮带来的服务可靠性挑战。公司在官方博客中表示,这一转变是为了解决过去几个月频繁发生的服务中断问题。

AI 代理带来的流量压力
自 2025 年初 以来,AI 驱动的代码开发趋势开始加速 GitHub 的使用增长。随着 AI 代理在开发者群体中普及,GitHub 目睹了前所未有的使用量激增。
公司曾在 2025 年 10 月 开始执行计划,将容量提升 10 倍 以满足需求,但到 2026 年 2 月 发现实际增长已超出预期,未来可能需要达到当前规模的 30 倍。
服务中断影响用户
频繁的可靠性问题已经导致部分开发者和项目方对 GitHub 表达不满。开发人员 Mitchell Hashimoto 在其博客中宣布将 Ghostly 项目从 GitHub 迁移,原因是过去几个月频繁的可靠性问题。
最近两次已知事故包括:
– 2026 年 4 月 23 日:合并队列操作出现回归问题,影响 658 个仓库 和 2,092 个拉取请求
– 2026 年 4 月 27 日:Elasticsearch 子系统出现问题,未造成数据丢失,但依赖搜索的 UI 功能受到严重影响
基础设施改造措施
为解决这些问题,GitHub 采取了多项改进措施。<由于部分计算需求已迁移至 Azure 平台,公司能够根据负载进行弹性扩展。
GitHub 正在将 Git 和 GitHub Actions 等核心服务与其他工作负载隔离,以降低关键服务受到的影响范围。公司还确认正在向多云架构推进,以增强系统的整体韧性。
战略优先级调整
GitHub 团队明确将优先级调整为:可用性第一,其次是容量,最后是新功能开发。这种转变反映了平台规模增长后,即使是子系统的小效率问题也可能演变成重大挑战的现实。
公司表示仍在完成 4 月 27 日事件的根因分析,并承诺持续改进可用性指标、增强系统韧性,并提升事件期间及事件后的沟通透明度。
via Neowin