稳定性的灯塔:腾讯 SRE 质量运营体系建设实践
本文将从整体角度出发,探讨腾讯 SRE 质量运营体系是如何构建和实践的,以及建设过程中经验和思考,并… 继续阅读 稳定性的灯塔:腾讯 SRE 质量运营体系建设实践
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
本文将从整体角度出发,探讨腾讯 SRE 质量运营体系是如何构建和实践的,以及建设过程中经验和思考,并… 继续阅读 稳定性的灯塔:腾讯 SRE 质量运营体系建设实践
语雀是什么 语雀是蚂蚁集团内部孵化的一款笔记类工具,友好的 Markdown 支持,丰富的绘图模板、… 继续阅读 故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
在线服务的稳定性保障一直是运维和技术部门的核心工作之一。但时至今日,这个方向实际仍然有很多基本的概念… 继续阅读 服务稳定性保障的五大误解
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的… 继续阅读 故障复盘 – 4个重要运作机制
某企业内部故障统计数据显示85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警,往… 继续阅读 故障复盘 – 什么样的原则review 监控告警
微软 Azure DevOps 是一套应用程序生命周期服务,提供了从代码管理到持续集成、持续交付、测… 继续阅读 故障最佳实践经验 – 一个简单代码错拼、误删 17 个生产级数据库,宕机10小时
宕机时时有,但持续 24 小时以上的却并不多见。 近日,位于澳大利亚悉尼的微软 Azure 服务突发… 继续阅读 故障最佳实践经验 – 微软 Azure 澳洲数据中心宕机超 24 小时!值得思考自动化、智能化等工具失效后运维人员是否还依然能管控好生产风险
一、永远不要为你不想成为的人工作 1. 如果你不想投资于一家公司,就不要在这家公司工作。因… 继续阅读 宝贵的人生建议 – 凯文·凯利:给子女,100条建议
一、背景 技术管理者(技术总监/经理/CTO)期望通过体系化的管理方式建设,能够在百人,千人以上的团… 继续阅读 最佳实践 – 技术如何从小白到管理,怎么支撑业务快速发展?
“现代管理学之父”德鲁克先生曾说过这样一句话,被认为“商业之美”最好的形容:“世界上之所以出现鞋匠,… 继续阅读 大模型,方向比速度更重要