可观测性(Observability)- 聚合度量
度量(Metrics)的目的是揭示系统的总体运行状态。相信大家应该见过这样的场景:舰船的驾驶舱或者卫… 继续阅读 可观测性(Observability)- 聚合度量
SRE IT服务管理之运维管理最佳实践
度量(Metrics)的目的是揭示系统的总体运行状态。相信大家应该见过这样的场景:舰船的驾驶舱或者卫… 继续阅读 可观测性(Observability)- 聚合度量
虽然 2010 年之前就已经有了 X-Trace、Magpie 等跨服务的追踪系统了,但现代分布式链… 继续阅读 可观测性(Observability) – 链路追踪
日志用来记录系统运行期间发生过的离散事件。相信没有哪一个生产系统能够缺少日志功能,然而也很少人会把日… 继续阅读 可观测性(Observability)- 事件日志
随着分布式架构渐成主流,可观测性(Observability)一词也日益频繁地被人提起。最初,它与可… 继续阅读 可观测性(Observability) – 三要素日志、追踪、度量
背景 随着业务规模的不断扩张和日常需求的快速迭代,即使是最优秀的业务架构、最完善的生产体系也无法确保… 继续阅读 系统稳定性保障 – 1-3-5-10的应急响应中心专业治理宕机
最近一两年,我们可以发现混沌工程这个技术变得十分火热,大家都知道它变成了一个新的风口。常说做事情要顺… 继续阅读 系统稳定性保障 – 混沌工程 – 持续保障系统稳定性和高可用:腾讯游戏混沌工程实践
“阿里稳定分”不是一个官方术语,但我们可以基于阿里云对服务稳定性的重视和实践,构想一个类似的评估体系… 继续阅读 系统稳定性保障 – 事件激励与约束 故障分计算思路
乔治·吉尔德为《价值为纲》所写的序言 “不要只想着解决问题”。 这是已故管理理论鼻祖彼得·德鲁克的建… 继续阅读 问题就是机遇
复盘是一种回顾和分析过去行为、决策和结果的过程,目的是从过去的经历中学习并做出改进。 故障复盘在实践… 继续阅读 故障复盘 – 复盘步骤与经验方法
德尔菲法(Delphi Method)模型定义与特征 德尔菲法是一种基于专家匿名调查和反馈的决策支持… 继续阅读 故障复盘 – 复盘工具 德尔菲法(Delphi Method)复盘法