分布式系统评分卡
分布式系统量身定制的质量评分卡(Quality Scorecard)体系,涵盖可用性、性能、可扩展性… 继续阅读 分布式系统评分卡
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
分布式系统量身定制的质量评分卡(Quality Scorecard)体系,涵盖可用性、性能、可扩展性… 继续阅读 分布式系统评分卡
一、什么是可靠性管理能力? 可靠性管理能力是SRE体系中”司令部”的角色,是… 继续阅读 SRE构建高可靠系统最佳实践(六):可靠性管理能力深度解析
一、什么是可靠性试验与反脆弱能力? 可靠性试验与反脆弱能力是指通过系统性测试、模拟故障、主动暴露脆弱… 继续阅读 SRE构建高可靠系统最佳实践(五):可靠性试验与反脆弱能力
一、什么是可靠性保障能力? 可靠性保障能力是指通过人力、运维资源、管控平台、平常训练等综合保障能力,… 继续阅读 SRE构建高可靠系统最佳实践(四):可靠性保障能力
一、什么是故障修复能力? 故障修复能力是指故障发生时快速修复故障的能力,是设计开发预案、打造修复工具… 继续阅读 SRE构建高可靠系统最佳实践(三):故障修复能力
一、什么是可靠性观测能力? 可靠性观测能力是广义的可靠性保障体系中的核心能力,指在复杂而庞大规模的业… 继续阅读 SRE构建高可靠系统最佳实践(二):可靠性观测能力
作为在技术领域深耕多年的SRE专家,我深知可靠性不是偶然的产物,而是系统性设计的结果。根据我的经验,… 继续阅读 SRE构建高可靠系统最佳实践(一):可靠性设计能力
本文介绍了稳定性建设实践相关的内容。介绍了稳定性保障组织建设,交付流程的稳定性保障,线上稳定性保障的… 继续阅读 系统稳定性建设实践(22)快手稳定性建设经验
业务系统故障率居高不下:有哪些非常有效的治理大招?美图SRE:一次线上大事故,我悟出了故障治理的3步… 继续阅读 稳定性建设体系 – 故障应急案例学习
B站故障应急与业务1-5-10摸排:如何实现超95%故障自发现率?故障总时长从100+分钟到低于30… 继续阅读 稳定性建设体系 – 故障处理案例学习