SRE构建高可靠系统最佳实践(四):可靠性保障能力
一、什么是可靠性保障能力? 可靠性保障能力是指通过人力、运维资源、管控平台、平常训练等综合保障能力,… 继续阅读 SRE构建高可靠系统最佳实践(四):可靠性保障能力
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
一、什么是可靠性保障能力? 可靠性保障能力是指通过人力、运维资源、管控平台、平常训练等综合保障能力,… 继续阅读 SRE构建高可靠系统最佳实践(四):可靠性保障能力
一、什么是故障修复能力? 故障修复能力是指故障发生时快速修复故障的能力,是设计开发预案、打造修复工具… 继续阅读 SRE构建高可靠系统最佳实践(三):故障修复能力
一、什么是可靠性观测能力? 可靠性观测能力是广义的可靠性保障体系中的核心能力,指在复杂而庞大规模的业… 继续阅读 SRE构建高可靠系统最佳实践(二):可靠性观测能力
作为在技术领域深耕多年的SRE专家,我深知可靠性不是偶然的产物,而是系统性设计的结果。根据我的经验,… 继续阅读 SRE构建高可靠系统最佳实践(一):可靠性设计能力
本文介绍了稳定性建设实践相关的内容。介绍了稳定性保障组织建设,交付流程的稳定性保障,线上稳定性保障的… 继续阅读 系统稳定性建设实践(22)快手稳定性建设经验
业务系统故障率居高不下:有哪些非常有效的治理大招?美图SRE:一次线上大事故,我悟出了故障治理的3步… 继续阅读 稳定性建设体系 – 故障应急案例学习
B站故障应急与业务1-5-10摸排:如何实现超95%故障自发现率?故障总时长从100+分钟到低于30… 继续阅读 稳定性建设体系 – 故障处理案例学习
业务增长挑战:去哪儿如何通过自动化高效管理Redis,实现资源快速交付?半年减少70%PAAS层配置… 继续阅读 稳定性建设体系 – 容量管理案例学习
100+次演练验证:酷家乐如何打造高效的自动化演练平台? 2个月演练200+次:B站如何实现演练平台… 继续阅读 稳定性建设 – 混沌工程案例学习
亿级流量下的高可用实践:携程门票秒杀架构如何设计? 去哪儿“技术债”偿还实践:如何高效、低风险砍掉5… 继续阅读 稳定性建设体系 – 架构优化案例学习