2024年复盘-互联网十大故障分析回顾
故障回顾随着2024年的圆满结束,今天,我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表… 继续阅读 2024年复盘-互联网十大故障分析回顾
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
故障回顾随着2024年的圆满结束,今天,我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表… 继续阅读 2024年复盘-互联网十大故障分析回顾
混沌初开,方兴未艾。混沌工程的概念由Netflix在2014年提出,近些年阿里,华为,腾讯,百度,工… 继续阅读 稳定性建设——《蚂蚁集团混沌工程技术理论与实践》
一、前言 之前在《云原生背景下的运维价值思考与实践(上)》 里,重点介绍了云原生背景下运维转型的思考… 继续阅读 SRE工具链建设实践:一夜颠覆60%旧体系,腾讯的SRE运维转型实践(2)
讲师介绍 刘天斯,腾讯游戏营销SRE负责人,腾讯T12级技术专家,国家工程实验室兹聘专家(工业大数据… 继续阅读 SRE工具链建设实践:一夜颠覆60%旧体系,腾讯的SRE运维转型实践
一、认识数据资产 二、数据治理-方法论 三、CMDB平台建设 四、B站SRE资产平台建设之路 一、认… 继续阅读 CMDB是配置管理库它应该长得怎么样?数据资产体系如何建设?
中国移动信息技术中心技术专家,中国移动磐基CMChaos平台负责人晁元宁分享了《混沌工程与SRE的结… 继续阅读 混沌工程与SRE的结合(中国移动)
12月24日,圣诞节前夕,原本应该是旅客出行最繁忙的时间段,美国航空公司的一则突发消息,让原本计划出… 继续阅读 平安夜美国航空停飞!股价暴跌超5%,运维工程师再背锅?事件回顾
本文主要介绍了蚂蚁集团大规模互联网系统中业务SRE的稳定性实践,包括业务SRE的定义、应急管理、大促… 继续阅读 稳定性保障 – 故障应急体系构建及应用实践(2)
蚂蚁集团SRE技术专家刘凯宁在演讲中介绍了蚂蚁故障应急全流程体系,包括故障体系、应急体系、故障全生命… 继续阅读 稳定性保障 – 故障应急体系构建及应用实践(1)
2024年12月11日,OpenAI经历了一场全球范围的服务中断,持续时间超过四个小时,影响了Cha… 继续阅读 故障复盘 – 2024.12.11 OpenAI全球服务宕机复盘:技术架构的脆弱性与教训