2023.11.12 阿里云的史诗级故障,故障原因曝光
2023年11月12日,双十一刚过,一大片阿里的产品都挂了,来了一波“史诗级”大翻车。 阿里云断网并… 继续阅读 2023.11.12 阿里云的史诗级故障,故障原因曝光
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
2023年11月12日,双十一刚过,一大片阿里的产品都挂了,来了一波“史诗级”大翻车。 阿里云断网并… 继续阅读 2023.11.12 阿里云的史诗级故障,故障原因曝光
在大部分人的认知中,服务器宕机,产品“崩了”这种事故,往往是因为流量太大,短期内访问量达到峰值。 比… 继续阅读 阿里云的史诗级故障,缓解了程序员的精神内耗?
前言2024年还有一个月多一点即将落幕,距离阿里云11.12超级大故障已有13天的时间(传闻故障赔偿… 继续阅读 2023.11.12 阿里云的史诗级故障 故障时长185.76分钟,怎么赔付?
利用「假设思考」来解决问题的3步流程。通常我们解决问题有2种思考模式:1种是零基思考,就是没有基准的… 继续阅读 3步高效解决问题实践
时隔一年阿里云又出大故障,并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。… 继续阅读 故障复盘 – 2023.11.12 阿里云的史诗级故障,从这故障中我们能学到什么
本文将从整体角度出发,探讨腾讯 SRE 质量运营体系是如何构建和实践的,以及建设过程中经验和思考,并… 继续阅读 稳定性的灯塔:腾讯 SRE 质量运营体系建设实践
语雀是什么 语雀是蚂蚁集团内部孵化的一款笔记类工具,友好的 Markdown 支持,丰富的绘图模板、… 继续阅读 故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
在线服务的稳定性保障一直是运维和技术部门的核心工作之一。但时至今日,这个方向实际仍然有很多基本的概念… 继续阅读 服务稳定性保障的五大误解
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的… 继续阅读 故障复盘 – 4个重要运作机制
某企业内部故障统计数据显示85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警,往… 继续阅读 故障复盘 – 什么样的原则review 监控告警