系统稳定性保障 – 云原生大潮下的混沌工程思考
简介:生产环境的突袭演练是我们迈出的艰难但有力的一步,锻炼了研发运维人员的应急响应能力,在真实用户场… 继续阅读 系统稳定性保障 – 云原生大潮下的混沌工程思考
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
简介:生产环境的突袭演练是我们迈出的艰难但有力的一步,锻炼了研发运维人员的应急响应能力,在真实用户场… 继续阅读 系统稳定性保障 – 云原生大潮下的混沌工程思考
大家好,我是来自去哪儿网的刘志志,19年加入去哪儿网,主要参与CI/CD平台建设,负责故障演练平台的… 继续阅读 系统稳定性保障 – 哪儿网故障演练实践经验
文中所提及的事件并不仅限于故障,还包括运维工作中的告警、异常等。 “An inciden… 继续阅读 系统稳定性保障 – 美团AIOps在事件管理的硬核实践
监控 定义 监控(monitor)只是通过收集系统中预定义的指标集或日志集,告知并表明出了什么问题。… 继续阅读 可观测性(Observability) – 监控和可观测性区别
度量(Metrics)的目的是揭示系统的总体运行状态。相信大家应该见过这样的场景:舰船的驾驶舱或者卫… 继续阅读 可观测性(Observability)- 聚合度量
虽然 2010 年之前就已经有了 X-Trace、Magpie 等跨服务的追踪系统了,但现代分布式链… 继续阅读 可观测性(Observability) – 链路追踪
日志用来记录系统运行期间发生过的离散事件。相信没有哪一个生产系统能够缺少日志功能,然而也很少人会把日… 继续阅读 可观测性(Observability)- 事件日志
随着分布式架构渐成主流,可观测性(Observability)一词也日益频繁地被人提起。最初,它与可… 继续阅读 可观测性(Observability) – 三要素日志、追踪、度量
背景 随着业务规模的不断扩张和日常需求的快速迭代,即使是最优秀的业务架构、最完善的生产体系也无法确保… 继续阅读 系统稳定性保障 – 1-3-5-10的应急响应中心专业治理宕机
最近一两年,我们可以发现混沌工程这个技术变得十分火热,大家都知道它变成了一个新的风口。常说做事情要顺… 继续阅读 系统稳定性保障 – 混沌工程 – 持续保障系统稳定性和高可用:腾讯游戏混沌工程实践