跳转到内容

IT 运营管理:ITIL 最佳实践

IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制

故障治理标签存档订阅

系统稳定性保障 – 美团AIOps在事件管理的硬核实践 

文中所提及的事件并不仅限于故障,还包括运维工作中的告警、异常等。 “An inciden… 继续阅读 系统稳定性保障 – 美团AIOps在事件管理的硬核实践 

  • 发表于: 2024年9月22日 2024年9月22日
  • 作者: viplao
  • 标签: 故障治理

系统稳定性保障 – 事件激励与约束 故障分计算思路

“阿里稳定分”不是一个官方术语,但我们可以基于阿里云对服务稳定性的重视和实践,构想一个类似的评估体系… 继续阅读 系统稳定性保障 – 事件激励与约束 故障分计算思路

  • 发表于: 2024年8月10日 2024年10月20日
  • 作者: viplao
  • 标签: 故障治理, 稳定性保障

稳定性的灯塔:腾讯 SRE 质量运营体系建设实践

本文将从整体角度出发,探讨腾讯 SRE 质量运营体系是如何构建和实践的,以及建设过程中经验和思考,并… 继续阅读 稳定性的灯塔:腾讯 SRE 质量运营体系建设实践

  • 发表于: 2023年10月29日 2023年10月29日
  • 作者: viplao
  • 标签: 思维认知, 故障治理

故障处理最佳实践 – ‘踩坑’、‘跳坑’、‘填坑’、‘避坑’

墨菲定律任何事情都没有表面看起来那么简单所有事情的发展都会比你预计的时间长会出错的事情总会出错如果担… 继续阅读 故障处理最佳实践 – ‘踩坑’、‘跳坑’、‘填坑’、‘避坑’

  • 发表于: 2023年9月2日 2023年9月2日
  • 作者: viplao
  • 标签: 故障治理

故障处理最佳实践 – 滴滴是如何高效处理线上故障的?

故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也将随之增大。… 继续阅读 故障处理最佳实践 – 滴滴是如何高效处理线上故障的?

  • 发表于: 2023年9月2日 2023年9月2日
  • 作者: viplao
  • 标签: 故障治理

排查 K8S 问题的经验和技巧

最近更新:故障经验、Kubernetes架构、持久化存储、Helm、CICD、Ingress-ngi… 继续阅读 排查 K8S 问题的经验和技巧

  • 发表于: 2023年7月8日 2023年7月8日
  • 作者: viplao
  • 标签: 实践案例, 故障治理

运维稳定性 – 故障处理的系统稳定性与可观测性能力实践 

笔者从 12 年开始入行,从事 DevOps 研发工作,做过部署系统、监控系统、可观测性相关产品,也… 继续阅读 运维稳定性 – 故障处理的系统稳定性与可观测性能力实践 

  • 发表于: 2023年7月2日 2023年7月8日
  • 作者: viplao
  • 标签: 实践案例, 故障治理

故障治理 – 京东科技之全链路故障诊断-智能运维实践

讲师介绍 张静,京东科技智能运维算法高级经理。硕士毕业于东北大学,持续深耕智能运维领域多年,带领团队… 继续阅读 故障治理 – 京东科技之全链路故障诊断-智能运维实践

  • 发表于: 2023年6月17日 2023年6月17日
  • 作者: viplao
  • 标签: 实践案例, 故障治理
经验教训 – 故障处理,教你30秒把问题说清楚

经验教训 – 故障处理,教你30秒把问题说清楚

故障处理可参考麦肯锡30秒电梯法则思路,快速把问题陈述。 一  了解30秒电梯法则 谈到“… 继续阅读 经验教训 – 故障处理,教你30秒把问题说清楚

  • 发表于: 2023年4月30日 2023年4月30日
  • 作者: viplao
  • 标签: 故障治理, 经验教训
故障治理 – 回顾近年数据中心十大灾难事件

故障治理 – 回顾近年数据中心十大灾难事件

数据中心的存在,就是为了保障计算的安全与可连续性。然而,仅仅最近三年中,数据中心发生了十余件故障乃至… 继续阅读 故障治理 – 回顾近年数据中心十大灾难事件

  • 发表于: 2023年4月1日 2023年4月2日
  • 作者: viplao
  • 标签: 故障治理

分页

页码: 1 页码: 2 页码: 3 下一页

近期文章

  • 系统稳定性建设(16) – 稳定架构设计思路
  • 系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
  • 系统稳定性建设(14) – 稳定性治理思路与实践
  • 系统稳定性建设(13) – AI赋能稳定性思路
  • 系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)

AI提示词 excel分析 flink sql 基础实践 ITIL最佳实践 Prompt攻略 Python运营分析技能 代码BUG 企业文化 危机管理, 变更执行 可观测性 告警治理 复盘 安全认知 宕机 实践案例 容量不足 思维认知 操作失误 故障复盘 故障治理 故障演练 数据分析 流程规范 混沌工程 稳定性保障 稳定性建设 稳定性治理实践 经验教训 舆情事件

© 2025                 IT 运营管理:ITIL 最佳实践.               粤ICP备2022017430号
本文部分内容摘录于互联网,只做参考学习,若有版权问题请联系处理               viplao@qq.com