大规模运行 Apache Airflow 的经验和教训
Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify,我们已… 继续阅读 大规模运行 Apache Airflow 的经验和教训
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify,我们已… 继续阅读 大规模运行 Apache Airflow 的经验和教训
Windows蓝屏致损150亿美元,受灾者仅获赔10美元引热议,程序员激辩用Rust能否改写史上最大… 继续阅读 经验教训 – 2024.7.19 Windows蓝屏致损150亿美元 “黑天鹅”事件引发的思考
腾讯云发布了 4.8 号大故障的复盘报告。我认为是一件好事,因为阿里云双十一大故障的官方故障复盘至今… 继续阅读 经验教训 – 2024.4.8 腾讯云事件持续近87分钟学习经验
一、背景 从 2010 年 Netflix 上线 Chaos Mokey 的第一个版本到现在,虽然混… 继续阅读 系统稳定性保障 – 迄今见过最易懂的混沌工程落地实践
近几年大家对于生产服务的稳定性越来越重视,无论是在技术大会还是企业的技术规划中,混沌工程越来越多的被… 继续阅读 系统稳定性保障 – 学习了大厂混沌工程故障演练思路就更清晰
什么是混沌工程 在生产环境中实际运行分布式系统,难免会有各种不可预料的突发事件发生。同时,云原生的发… 继续阅读 系统稳定性保障 – 字节跳动混沌工程故障演练实践总结
网络安全公司CrowdStrike旗下的猎鹰传感器(Falcon Sensor)的一次软件更新引发了… 继续阅读 经验教训 – 24年史上最大规模宕机事件的10个重要教训
一、背景 随着货拉拉微服务架构、容器化技术广泛使用,软件架构的复杂度在不断提升,由服务之间的依赖所带… 继续阅读 系统稳定性保障 – 货拉拉微服务架构故障演练实践
引言阿里巴巴经过多年的技术演进,系统工具和架构已经高度垂直化,服务器规模也达到了比较大的体量。当服务… 继续阅读 系统稳定性保障 – 大厂故障演练思考
微服务架构场景中,应用系统复杂切分散。长期运行时,局部出现故障时不可避免的。如果发生故障时不能进行有… 继续阅读 系统稳定性保障 – 微服务架构下如何做好故障演练