故障复盘 25.6.13 – 谷歌云故障背后，是什么让 “更新” 变 “灾难”？

发表于： 2025年6月13日 2025年6月13日
标签：故障复盘, 经验教训

访问量： 653

2025年06月13日01时49分（北京时间），谷歌云GCP服务（云计算服务平台），对全球分布式API管理系统进行了一次无效的自动化配额更新，导致API服务无法接收外部请求，造成包括身份与访问管理（IAM）、云密钥管理服务（KMS）、谷歌云存储、云监控在内的70余个服务异常。同时大量基于谷歌云的互联网应用均受此事故影响，包括Cloudflare、YouTube、Facebook等企业。

一、事故过程

01时49分，谷歌云多项云服务发生服务异常，谷歌云多个产品及谷歌工作空间产品出现服务中断。

01时51分，谷歌云工程师启动应急预案。

02时46分，谷歌云发布事故通告。

03时48分，谷歌云大部分区域已完成主要问题恢复操作，但us-central1区域因配额策略数据库过载，导致恢复命令未能生效；同时部分产品因任务、线程积压等残留问题，暂未恢复正常服务。

04时49分，谷歌云GCP服务全面恢复。

二、事故影响

在本次事故中客户无法正常使用谷歌云及谷歌工作空间产品，同时通过外部API请求谷歌云相关服务时会出现503错误。

受影响的平台包括 Spotify 、 OpenAI 、 GitHub 等。故障发生在美东时间周四下午，大量用户开始报告服务问题，故障报告数量在下午2:30至3:00达到峰值。

三、事故分析

经调研分析，本次事故的直接原因是谷歌云进行的一次无效的自动化配额更新，造成全球分布式API管理系统异常，进而导致面向谷歌云的外部API请求被拒绝。影响了基于API管理系统的多项核心服务，包括身份与访问管理（IAM）、云密钥管理服务（KMS）、谷歌云存储、云监控等。事后，谷歌云公开了未来改进计划。

结合谷歌云的改进计划，实验室分析本次事故的根本原因如下。

对谷歌云来讲：

一是软件设计有待完善。在软件设计层面，API管理平台容灾机制存在缺陷；在自动化工具层面，谷歌未对配额自动化更新任务进行全面的测试和验证便将其投入生产，导致出现自动化配额更新失败问题。

二是变更验证存在缺陷。谷歌变更后未验证本次配额更新的有效性并在变更未全面验证前将其扩散至全部区域，导致引发全球故障。

三是缺少有效恢复方案。当谷歌已确认因配额更新失效导致服务存在异常后，无针对此场景的有效恢复手段，导致部分区域和产品无法实现故障快速恢复。

对云上应用来讲：

对三方服务依赖强。在互联网应用架构设计阶段，服务架构韧性设计考虑不充分，导致形成对单一第三方服务的强依赖关系；当谷歌云出现异常时，互联网应用未采用服务切换、依赖隔离等机制，导致第三方故障通过依赖链条传导，引发自身服务异常。

四、历史事故回顾

这并非云服务商首次上演“全球惊魂”：

·2024年5月2日至9日，谷歌云因“意料之外的配置错误”导致澳大利亚养老基金管理公司（UniSuper）的谷歌云账户遭到删除，超过60万名基金成员近7日无法访问其退休金账户，涉及金额高达约1240亿澳元，造成极大社会影响。

·2024年7月19日，Crowdstrike更新引起了Windows兼容性问题，引发微软Azure服务大面积故障，造成全球范围内微软终端设备出现“蓝屏死机”现象，多国医疗、航空公司、银行等重要机构业务遭受影响，造成极大社会影响。

·2024年11月25日，微软因变更引发大量涌入的重试请求通过服务器路由传输，主要影响Exchange Online、Microsoft Teams和SharePoint Online等核心服务，同时涉及OneDrive、Purview、Copilot以及Outlook网页版和桌面版等多个应用

从谷歌云此次因配额变更异常引发的全球服务中断，到过往其他云服务商因配置错误、兼容性等问题导致的扩散灾难性故障，均凸显出云服务的诸多运行安全隐患。

viplao

394