经验教训 – 2024.7.19 Windows蓝屏致损150亿美元 “黑天鹅”事件引发的思考
Windows蓝屏致损150亿美元,受灾者仅获赔10美元引热议,程序员激辩用Rust能否改写史上最大… 继续阅读 经验教训 – 2024.7.19 Windows蓝屏致损150亿美元 “黑天鹅”事件引发的思考
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
Windows蓝屏致损150亿美元,受灾者仅获赔10美元引热议,程序员激辩用Rust能否改写史上最大… 继续阅读 经验教训 – 2024.7.19 Windows蓝屏致损150亿美元 “黑天鹅”事件引发的思考
腾讯云发布了 4.8 号大故障的复盘报告。我认为是一件好事,因为阿里云双十一大故障的官方故障复盘至今… 继续阅读 经验教训 – 2024.4.8 腾讯云事件持续近87分钟学习经验
网络安全公司CrowdStrike旗下的猎鹰传感器(Falcon Sensor)的一次软件更新引发了… 继续阅读 经验教训 – 24年史上最大规模宕机事件的10个重要教训
11月29日,滴滴出行再就27日夜间系统故障致歉,提出了相应的补救措施和补偿方案。并公布了本次事故的… 继续阅读 经验教训 – 滴滴崩了滴滴官方公布P0级事故原因
时光荏苒,Google 的用户为搜索而来,为免费的 GB Gmail 而去,我们的机群和网络也随之发… 继续阅读 经验教训 – Google 20年的11条运维经验教训
前言2024年还有一个月多一点即将落幕,距离阿里云11.12超级大故障已有13天的时间(传闻故障赔偿… 继续阅读 2023.11.12 阿里云的史诗级故障 故障时长185.76分钟,怎么赔付?
时隔一年阿里云又出大故障,并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。… 继续阅读 故障复盘 – 2023.11.12 阿里云的史诗级故障,从这故障中我们能学到什么
语雀是什么 语雀是蚂蚁集团内部孵化的一款笔记类工具,友好的 Markdown 支持,丰富的绘图模板、… 继续阅读 故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
微软 Azure DevOps 是一套应用程序生命周期服务,提供了从代码管理到持续集成、持续交付、测… 继续阅读 故障最佳实践经验 – 一个简单代码错拼、误删 17 个生产级数据库,宕机10小时
宕机时时有,但持续 24 小时以上的却并不多见。 近日,位于澳大利亚悉尼的微软 Azure 服务突发… 继续阅读 故障最佳实践经验 – 微软 Azure 澳洲数据中心宕机超 24 小时!值得思考自动化、智能化等工具失效后运维人员是否还依然能管控好生产风险