故障复盘 – 丰田5WHY法 – 学会从试错的经历中复盘
复盘,原本是围棋中的一个术语。 指下完棋后,重新在棋盘上走一遍,看看棋子下得好的地方和不好之处,哪些… 继续阅读 故障复盘 – 丰田5WHY法 – 学会从试错的经历中复盘
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
复盘,原本是围棋中的一个术语。 指下完棋后,重新在棋盘上走一遍,看看棋子下得好的地方和不好之处,哪些… 继续阅读 故障复盘 – 丰田5WHY法 – 学会从试错的经历中复盘
这是很多企业/团队都要面对的问题,有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点: … 继续阅读 故障复盘 – 故障复盘哪三大关键问题?
这里跟大家分享极简复盘5步法。分别是1 回顾目标,2 评估结果,3 分析原因,4 总结经验,5 指导… 继续阅读 故障复盘 – 有效复盘常用五步法
一、故障和复盘真的都是坏事吗?提到复盘,大多数人第一时间想到的是线上出了故障,这下又要有人背锅了;或… 继续阅读 故障复盘 – 哈啰出行高质量故障复盘法
今年的灾难事件有几点是比较深刻体会: 第 1 课:循环依赖会破坏你的运维工具流程工具与生产工具是结合… 继续阅读 经验教训 – 从10次宕机事件中,我学到重要的经验“不要心存侥幸,你担心的事情一定会发生”
是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地… 继续阅读 实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理
每一条教训都是通过生产环境异常总结出来经验 教训1: 变更实施 – 变更要优先考虑灰度原… 继续阅读 经验教训 – 生产环境血的教训最佳实践
微盟经历了8天的至暗时刻,数据修复工作终于有了进展,并于3月1日对外发布公告: 截止到3月1日晚8点… 继续阅读 经验教训 – 2020.10.16 微盟宕机8天,赔偿1.5亿!电商技术专家,总结6条经验
source: https://www.reportdoor.com/aws-outage… 继续阅读 经验教训 – 2020.11.25 亚马逊云服务事故
简介 2022 年 6 月 21 日,Cloudflare 发生了一次服务故障事件,影响到我们 19… 继续阅读 经验教训 – 2022年6月21日 Cloudflare 服务故障报告