IT服务管理:告警治理 – 京东基于Zabbix告警治理优化实践
大规模Zabbix万台应用监控场景下,针对告警、可靠性工程实践经验;通过Zabbix二次开发,集成运维平台、工单、值班、自愈系统,通告警服务化、数据化,为业务保驾护航,保障稳定性工程落地。
SRE IT服务管理之运维管理最佳实践
大规模Zabbix万台应用监控场景下,针对告警、可靠性工程实践经验;通过Zabbix二次开发,集成运维平台、工单、值班、自愈系统,通告警服务化、数据化,为业务保驾护航,保障稳定性工程落地。
如何理解ITIL相关重要流程: ITIL 重点与难点案例:
故障处理trouble shooting是每个SRE要做的日常,特别是处在快速成长期的大型互联网系统… 继续阅读 实践案例 – 预案管理 故障预案6板斧
很多大规模复杂在线服务系统,比如 Google、Amazon、Microsoft 和大型商业银行,包… 继续阅读 实践案例 – 告警定级为告警治理核心,告警智能定级原理探索
是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地… 继续阅读 实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理
监控系统经历大数据转型后迎来 AI 浪潮。这个主题分享腾讯织云监控的演进过程和考量因素。结合实际案例… 继续阅读 实践案例 – 腾讯织云智能监控实践
建设背景 近些年,苏宁一直基于云技术对外提供服务、产品、内容和应用。随着苏宁线上业务不断扩张,业务量… 继续阅读 实践案例 – 苏宁 AI 监控运维保障建设实践
为什么我们关注指标监控 以天气为例。 指标:衡量和描述对象的方式 可量化:比如最近天气很热。今天比昨… 继续阅读 实践案例 – 美团点评实时计算平台的 Flink 监控与告警实践