系统稳定性保障 – 美团AIOps在事件管理的硬核实践
文中所提及的事件并不仅限于故障,还包括运维工作中的告警、异常等。 “An inciden… 继续阅读 系统稳定性保障 – 美团AIOps在事件管理的硬核实践
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
文中所提及的事件并不仅限于故障,还包括运维工作中的告警、异常等。 “An inciden… 继续阅读 系统稳定性保障 – 美团AIOps在事件管理的硬核实践
“阿里稳定分”不是一个官方术语,但我们可以基于阿里云对服务稳定性的重视和实践,构想一个类似的评估体系… 继续阅读 系统稳定性保障 – 事件激励与约束 故障分计算思路
本文将从整体角度出发,探讨腾讯 SRE 质量运营体系是如何构建和实践的,以及建设过程中经验和思考,并… 继续阅读 稳定性的灯塔:腾讯 SRE 质量运营体系建设实践
墨菲定律任何事情都没有表面看起来那么简单所有事情的发展都会比你预计的时间长会出错的事情总会出错如果担… 继续阅读 故障处理最佳实践 – ‘踩坑’、‘跳坑’、‘填坑’、‘避坑’
故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也将随之增大。… 继续阅读 故障处理最佳实践 – 滴滴是如何高效处理线上故障的?
最近更新:故障经验、Kubernetes架构、持久化存储、Helm、CICD、Ingress-ngi… 继续阅读 排查 K8S 问题的经验和技巧
笔者从 12 年开始入行,从事 DevOps 研发工作,做过部署系统、监控系统、可观测性相关产品,也… 继续阅读 运维稳定性 – 故障处理的系统稳定性与可观测性能力实践
讲师介绍 张静,京东科技智能运维算法高级经理。硕士毕业于东北大学,持续深耕智能运维领域多年,带领团队… 继续阅读 故障治理 – 京东科技之全链路故障诊断-智能运维实践
故障处理可参考麦肯锡30秒电梯法则思路,快速把问题陈述。 一 了解30秒电梯法则 谈到“… 继续阅读 经验教训 – 故障处理,教你30秒把问题说清楚
数据中心的存在,就是为了保障计算的安全与可连续性。然而,仅仅最近三年中,数据中心发生了十余件故障乃至… 继续阅读 故障治理 – 回顾近年数据中心十大灾难事件