故障复盘 25.6.6 :服务瘫痪5小时!阿里云核心域名遭劫持,究竟谁是幕后黑手?
事件经过 ■ 02:57:阿里云监控发现 aliyuncs.com 域名解析出现异常,阿里云工程师正… 继续阅读 故障复盘 25.6.6 :服务瘫痪5小时!阿里云核心域名遭劫持,究竟谁是幕后黑手?
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
事件经过 ■ 02:57:阿里云监控发现 aliyuncs.com 域名解析出现异常,阿里云工程师正… 继续阅读 故障复盘 25.6.6 :服务瘫痪5小时!阿里云核心域名遭劫持,究竟谁是幕后黑手?
1. 详细描述(必填) 详细的 bug 描述, 包含可以复现的环境准备(比如测试包、有问题的 com… 继续阅读 故障复盘 :Case Study: 故障复盘通用模版
2025年06月13日01时49分(北京时间),谷歌云GCP服务(云计算服务平台),对全球分布式AP… 继续阅读 故障复盘 25.6.13 – 谷歌云故障背后,是什么让 “更新” 变 “灾难”?
SRE可观测能力的重要性,强调了分钟级感知故障、定位和快速恢复的能力。通过可观测性建设,SRE能够深… 继续阅读 系统稳定性建设(21) – 分钟级感知故障、定位和快恢的能力
如何通过腾讯云顾问来提升系统稳定性。首先,通过云生图功能生成项目的全局架构图,并进行手动绘制,使得架… 继续阅读 系统稳定性建设(20)- AI怎么将系统稳定性拉满?
一、作者在阿里巴巴的工作经验,并分享了稳定性保障和架构优化的核心策略。视频首先分析了系统故障的原因和… 继续阅读 系统稳定性建设(19)架构优化的关键策略实践
可靠性设计工作应遵循以下几个原则。□应将产品的可靠性要求转化为可考核验证的设计要求,作为可靠性设计的… 继续阅读 系统稳定性建设(18) – 高可用原则与设计
系统稳定性建设是系统工程的核心内容之一。以下是一些重要的方面: 架构设计:采用模块化、松耦合的架构设… 继续阅读 系统稳定性建设(16) – 稳定架构设计思路
0x01 概述 0x02 线上故障处理的目标 线上故障处理的过程也一样,优先级从高到低,线上故障处理… 继续阅读 系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
想了想,还是把过往一段时间里,我们在稳定性建设中的实践记录下来,包含一些思路和方法,也算是一部大型踩… 继续阅读 系统稳定性建设(14) – 稳定性治理思路与实践