经验教训 – 24年史上最大规模宕机事件的10个重要教训
网络安全公司CrowdStrike旗下的猎鹰传感器(Falcon Sensor)的一次软件更新引发了… 继续阅读 经验教训 – 24年史上最大规模宕机事件的10个重要教训
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
网络安全公司CrowdStrike旗下的猎鹰传感器(Falcon Sensor)的一次软件更新引发了… 继续阅读 经验教训 – 24年史上最大规模宕机事件的10个重要教训
一、背景 随着货拉拉微服务架构、容器化技术广泛使用,软件架构的复杂度在不断提升,由服务之间的依赖所带… 继续阅读 系统稳定性保障 – 货拉拉微服务架构故障演练实践
引言阿里巴巴经过多年的技术演进,系统工具和架构已经高度垂直化,服务器规模也达到了比较大的体量。当服务… 继续阅读 系统稳定性保障 – 大厂故障演练思考
微服务架构场景中,应用系统复杂切分散。长期运行时,局部出现故障时不可避免的。如果发生故障时不能进行有… 继续阅读 系统稳定性保障 – 微服务架构下如何做好故障演练
简介:生产环境的突袭演练是我们迈出的艰难但有力的一步,锻炼了研发运维人员的应急响应能力,在真实用户场… 继续阅读 系统稳定性保障 – 云原生大潮下的混沌工程思考
大家好,我是来自去哪儿网的刘志志,19年加入去哪儿网,主要参与CI/CD平台建设,负责故障演练平台的… 继续阅读 系统稳定性保障 – 哪儿网故障演练实践经验
文中所提及的事件并不仅限于故障,还包括运维工作中的告警、异常等。 “An inciden… 继续阅读 系统稳定性保障 – 美团AIOps在事件管理的硬核实践
监控 定义 监控(monitor)只是通过收集系统中预定义的指标集或日志集,告知并表明出了什么问题。… 继续阅读 可观测性(Observability) – 监控和可观测性区别
度量(Metrics)的目的是揭示系统的总体运行状态。相信大家应该见过这样的场景:舰船的驾驶舱或者卫… 继续阅读 可观测性(Observability)- 聚合度量
虽然 2010 年之前就已经有了 X-Trace、Magpie 等跨服务的追踪系统了,但现代分布式链… 继续阅读 可观测性(Observability) – 链路追踪