经验教训 – 滴滴崩了滴滴官方公布P0级事故原因
11月29日,滴滴出行再就27日夜间系统故障致歉,提出了相应的补救措施和补偿方案。并公布了本次事故的… 继续阅读 经验教训 – 滴滴崩了滴滴官方公布P0级事故原因
SRE IT服务管理之运维管理最佳实践
11月29日,滴滴出行再就27日夜间系统故障致歉,提出了相应的补救措施和补偿方案。并公布了本次事故的… 继续阅读 经验教训 – 滴滴崩了滴滴官方公布P0级事故原因
时光荏苒,Google 的用户为搜索而来,为免费的 GB Gmail 而去,我们的机群和网络也随之发… 继续阅读 经验教训 – Google 20年的11条运维经验教训
前言2024年还有一个月多一点即将落幕,距离阿里云11.12超级大故障已有13天的时间(传闻故障赔偿… 继续阅读 2023.11.12 阿里云的史诗级故障 故障时长185.76分钟,怎么赔付?
时隔一年阿里云又出大故障,并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。… 继续阅读 故障复盘 – 2023.11.12 阿里云的史诗级故障,从这故障中我们能学到什么
语雀是什么 语雀是蚂蚁集团内部孵化的一款笔记类工具,友好的 Markdown 支持,丰富的绘图模板、… 继续阅读 故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
微软 Azure DevOps 是一套应用程序生命周期服务,提供了从代码管理到持续集成、持续交付、测… 继续阅读 故障最佳实践经验 – 一个简单代码错拼、误删 17 个生产级数据库,宕机10小时
宕机时时有,但持续 24 小时以上的却并不多见。 近日,位于澳大利亚悉尼的微软 Azure 服务突发… 继续阅读 故障最佳实践经验 – 微软 Azure 澳洲数据中心宕机超 24 小时!值得思考自动化、智能化等工具失效后运维人员是否还依然能管控好生产风险
今年的灾难事件有几点是比较深刻体会: 第 1 课:循环依赖会破坏你的运维工具流程工具与生产工具是结合… 继续阅读 经验教训 – 从10次宕机事件中,我学到重要的经验“不要心存侥幸,你担心的事情一定会发生”
运维工程师面试者第一个问题是:需要值班吗?笔者自己也曾经历过月入十万的时期,在那个时候,数个系统同时… 继续阅读 经验教训 – 摘录多年运维监控报警优化经验总结文章
故障处理可参考麦肯锡30秒电梯法则思路,快速把问题陈述。 一 了解30秒电梯法则 谈到“… 继续阅读 经验教训 – 故障处理,教你30秒把问题说清楚