运维工具 – 快手基于 Flink 构建实时数仓场景化实践(监控实施思路)
本文整理自快手数据技术专家李天朔在 5 月 22 日北京站 Flink Meetup 分享的议题《快… 继续阅读 运维工具 – 快手基于 Flink 构建实时数仓场景化实践(监控实施思路)
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
本文整理自快手数据技术专家李天朔在 5 月 22 日北京站 Flink Meetup 分享的议题《快… 继续阅读 运维工具 – 快手基于 Flink 构建实时数仓场景化实践(监控实施思路)
一、演进历史和运维挑战 阿里的实时计算经历了近 10 年的快速发展,总体来说可以分成三大时代: 1.… 继续阅读 运维工具 – 阿里超大规模 Flink 集群运维实践(实时监控必备工具之一)
在讲解事件、故障处理思路前,先讲一个故障场景(以呼叫中心系统作为一例子): 业务人员反映呼叫中心系统… 继续阅读 IT服务管理:故障治理 – 运维故障排查处理思路
大规模Zabbix万台应用监控场景下,针对告警、可靠性工程实践经验;通过Zabbix二次开发,集成运维平台、工单、值班、自愈系统,通告警服务化、数据化,为业务保驾护航,保障稳定性工程落地。
如何理解ITIL相关重要流程: ITIL 重点与难点案例:
故障处理trouble shooting是每个SRE要做的日常,特别是处在快速成长期的大型互联网系统… 继续阅读 实践案例 – 预案管理 故障预案6板斧
很多大规模复杂在线服务系统,比如 Google、Amazon、Microsoft 和大型商业银行,包… 继续阅读 实践案例 – 告警定级为告警治理核心,告警智能定级原理探索
是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地… 继续阅读 实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理