故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
语雀是什么 语雀是蚂蚁集团内部孵化的一款笔记类工具,友好的 Markdown 支持,丰富的绘图模板、… 继续阅读 故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
语雀是什么 语雀是蚂蚁集团内部孵化的一款笔记类工具,友好的 Markdown 支持,丰富的绘图模板、… 继续阅读 故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
微软 Azure DevOps 是一套应用程序生命周期服务,提供了从代码管理到持续集成、持续交付、测… 继续阅读 故障最佳实践经验 – 一个简单代码错拼、误删 17 个生产级数据库,宕机10小时
宕机时时有,但持续 24 小时以上的却并不多见。 近日,位于澳大利亚悉尼的微软 Azure 服务突发… 继续阅读 故障最佳实践经验 – 微软 Azure 澳洲数据中心宕机超 24 小时!值得思考自动化、智能化等工具失效后运维人员是否还依然能管控好生产风险
今年的灾难事件有几点是比较深刻体会: 第 1 课:循环依赖会破坏你的运维工具流程工具与生产工具是结合… 继续阅读 经验教训 – 从10次宕机事件中,我学到重要的经验“不要心存侥幸,你担心的事情一定会发生”
运维工程师面试者第一个问题是:需要值班吗?笔者自己也曾经历过月入十万的时期,在那个时候,数个系统同时… 继续阅读 经验教训 – 摘录多年运维监控报警优化经验总结文章
故障处理可参考麦肯锡30秒电梯法则思路,快速把问题陈述。 一 了解30秒电梯法则 谈到“… 继续阅读 经验教训 – 故障处理,教你30秒把问题说清楚
2022年,是网络安全市场高速发展的一年,同时也是企业评估安全项目投资有效性,校准和优化安全防御战略… 继续阅读 经验教训 – 网络安全十四条经验教训
Facebook 深入探讨的问题是:“人类应当留意哪些 IT 告警?” Facebook 的产品工程… 继续阅读 告警服务治理 – 简单有效经验分享
科技行业经历了许多重大挫折事件,比如埃隆·马斯克(Elon Musk)被迫接管推特、元宇宙仍未腾飞、… 继续阅读 经验教训 – 美媒:2022年IT行业经历太多重大挫折,有8点深刻教训
包括微信语音、账号登录、朋友圈,以及微信支付,都无法正常使用。 有网友表示,电脑版微信大概是在早上1… 继续阅读 经验教训 – 3.29 #微信QQ出现功能异常#,冲上热搜,妥妥的第一