实践案例 – 故障治理 阿里智能化故障治理流程探索和实践
阿里巴巴集团拥有电商、金融、文娱、新零售、云计算等种多种业务形态,如何对这些业务形态做集团层面的统一… 继续阅读 实践案例 – 故障治理 阿里智能化故障治理流程探索和实践
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
阿里巴巴集团拥有电商、金融、文娱、新零售、云计算等种多种业务形态,如何对这些业务形态做集团层面的统一… 继续阅读 实践案例 – 故障治理 阿里智能化故障治理流程探索和实践
大家好,今天来的人不少,可见对于故障耿耿于怀的人,不止我自己。今天分享的内容主要还是围绕故障治理有关… 继续阅读 实践案例 – 故障治理 阿里电商故障治理和故障演练实践
这十多年来,腾讯运维团队里发生的点点滴滴,在我内心中,每件事情印象都很深刻。 我把一些故事梳理了一下… 继续阅读 实践案例 – 告警治理 腾讯运维总监聂鑫:QQ的海量监控体系是如何炼成的?
自我介绍 我是来自于腾讯社交网络事业群的梁定安,今天我给大家带来的分享是关于我们做了几年的智能监控实… 继续阅读 实践案例 – 告警治理 – 腾讯亿万量级告警是如何做到全、准、快的?
Heinrich’s Law 被一些BBS领域的专家称为 Behavior-based … 继续阅读 思维认知 – SRE 生产安全意识 之 海恩法则
在阿里巴巴隐藏着很多神秘的部门,GOC就是其中之一,你在互联网甚至搜不到关于它的一丁点儿信息。但就是… 继续阅读 监控中心 NOC 是什么 ?怎么来?
随着B站近几年的快速发展,业务规模越来越大,迭代速度越来越快,系统运行复杂度也越来越高。线上每天都会… 继续阅读 经验教训 – B站崩,如何谋划稳定性保障SRE升级思路?比较全面优化思路
每一条教训都是通过生产环境异常总结出来经验 教训1: 变更实施 – 变更要优先考虑灰度原… 继续阅读 经验教训 – 生产环境血的教训最佳实践
微盟经历了8天的至暗时刻,数据修复工作终于有了进展,并于3月1日对外发布公告: 截止到3月1日晚8点… 继续阅读 经验教训 – 2020.10.16 微盟宕机8天,赔偿1.5亿!电商技术专家,总结6条经验
国家网信办依据《网络安全法》、《数据安全法》和《个人信息保护法》以及《行政处罚法》等法律法规的规定。… 继续阅读 经验教训 – 2022.7.21 从滴滴被罚80亿谈起