监控中心 NOC 是什么 ?怎么来?
在阿里巴巴隐藏着很多神秘的部门,GOC就是其中之一,你在互联网甚至搜不到关于它的一丁点儿信息。但就是… 继续阅读 监控中心 NOC 是什么 ?怎么来?
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
在阿里巴巴隐藏着很多神秘的部门,GOC就是其中之一,你在互联网甚至搜不到关于它的一丁点儿信息。但就是… 继续阅读 监控中心 NOC 是什么 ?怎么来?
随着B站近几年的快速发展,业务规模越来越大,迭代速度越来越快,系统运行复杂度也越来越高。线上每天都会… 继续阅读 经验教训 – B站崩,如何谋划稳定性保障SRE升级思路?比较全面优化思路
每一条教训都是通过生产环境异常总结出来经验 教训1: 变更实施 – 变更要优先考虑灰度原… 继续阅读 经验教训 – 生产环境血的教训最佳实践
微盟经历了8天的至暗时刻,数据修复工作终于有了进展,并于3月1日对外发布公告: 截止到3月1日晚8点… 继续阅读 经验教训 – 2020.10.16 微盟宕机8天,赔偿1.5亿!电商技术专家,总结6条经验
国家网信办依据《网络安全法》、《数据安全法》和《个人信息保护法》以及《行政处罚法》等法律法规的规定。… 继续阅读 经验教训 – 2022.7.21 从滴滴被罚80亿谈起
source: https://www.reportdoor.com/aws-outage… 继续阅读 经验教训 – 2020.11.25 亚马逊云服务事故
简介 2022 年 6 月 21 日,Cloudflare 发生了一次服务故障事件,影响到我们 19… 继续阅读 经验教训 – 2022年6月21日 Cloudflare 服务故障报告
至暗时刻 2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警,客服侧开始收到… 继续阅读 经验教训 – 2021.07.13 B站宕机事故,我们是这样崩的
8月3日早晨,“微博崩了”话题登上热搜榜,话题阅读量高达4.7亿,讨论量也达到了4.1万。不少网友表… 继续阅读 经验教训 – 2022.08.02 微博为何总是宕机
先聊一聊SRE的工作职责,聊一下我所理解的SRE的核心目标; 初步看一下稳定性建设的工作范畴,看一看… 继续阅读 SRE实战手册 – 技能宝典