稳定性建设体系 – 监控告警案例学习

发表于： 2025年9月14日 2025年9月14日
标签：稳定性建设

访问量： 4256

故障预警准确率超90%：去哪儿网秒级监控做了哪些改造？
B站监控2.0架构升级：P90查询性能如何提升10倍？
告警数量减少95%：去哪儿数据库巡检报警系统做了哪些优化？
蚂蚁集团：Apache HoraeDB时序数据库性能提升2-4倍是如何做到的？
故障复盘后的告警如何加出效果？
监控告警怎么搭建比较合理？B站SRE实践总结了4大关键步骤
 阿里云弹性计算SRE实践：亿级调用量下的预警治理
 如何做到人均告警减少90%？B站新一代告警平台的设计与实践
 Prometheus+Grafana：转转如何打造开箱即用的一体化监控系统？
货拉拉智能监控实践：如何解决多云架构下的故障应急问题？

这些文章共同揭示了一个核心观点：监控告警体系的成败，不在于技术栈的先进与否，而在于其是否能真正为“人”服务——即帮助工程师快速、准确地发现问题、定位问题、解决问题。 一个设计不良的监控系统，其产生的噪音甚至比故障本身更危险。

文章目录

一、核心问题与教训：为什么监控告警会“失效”？

告警风暴（Alert Storm）：
- 问题：系统稍有波动就触发大量告警，导致工程师“狼来了”效应，对告警麻木，真正严重的告警被淹没。
- 根源：阈值设置不合理、缺乏聚合、未区分告警等级、故障传播链未收敛。
误报（False Positive）与漏报（False Negative）：
- 问题：要么频繁报错（误报），浪费人力；要么关键故障未被发现（漏报），导致业务受损。
- 根源：指标选取不当、基线不准确、缺乏对业务上下文的理解。
告警信息不完整、不明确：
- 问题：告警只说“CPU高了”，但不说“哪个服务、哪个实例、影响了什么业务、可能的原因是什么”。
- 根源：告警配置只关注“触发”，不关注“上下文”和“行动指引”。
查询与分析性能低下：
- 问题：故障发生时，想查一个指标要等几分钟，严重影响定位速度。
- 根源：存储架构不合理、数据量过大、查询未优化。
系统割裂，信息孤岛：
- 问题：应用监控、数据库监控、日志系统、调用链系统各自为政，故障排查需要在多个系统间切换。
- 根源：缺乏统一的监控平台和关联分析能力。
告警后缺乏闭环：
- 问题：故障复盘后，知道要加告警，但加的告警无效或重复，未形成“复盘-优化-验证”的闭环。
- 根源：告警管理缺乏治理机制。

二、实践经验与提升方法：如何构建高效、可靠的监控告警体系

1. 告警治理：从“数量”到“质量”的转变

怎么做：
- 建立告警分级制度：参考B站实践，将告警分为P0（致命）、P1（严重）、P2（一般）、P3（提示）等。P0/P1告警必须立即响应，P2/P3可批量处理或通过日报形式同步。
- 实施告警聚合与收敛：
  - 空间聚合：同一问题在多个实例上触发时，合并为一条告警（如“订单服务集群50%实例CPU > 80%”）。
  - 时间聚合：避免短时抖动反复告警，设置“持续N分钟满足条件才触发”。
  - 根因收敛：利用调用链或拓扑关系，识别故障传播链，只对根因服务告警，避免下游服务“连环告警”。
- 定期进行告警巡检与清理：像去哪儿网优化数据库巡检一样，定期审查告警规则，关闭无效、过时、低价值的告警。目标是减少90%以上的无效告警。
- 引入动态基线告警：避免固定阈值的僵化。使用算法（如移动平均、季节性分解）建立动态基线，当指标偏离基线超过一定标准差时才告警，适应业务波动。
降低问题：显著减少告警噪音，让工程师能专注于真正重要的问题，避免“告警疲劳”。

2. 提升告警的有效性：让告警“会说话”

怎么做：
- 丰富告警上下文：每条告警必须包含：
  - 影响范围：影响了哪个业务、多少用户、核心指标（如订单量、支付成功率）是否下降。
  - 定位信息：出问题的服务、实例、IP、Pod、容器等。
  - 可能原因：关联的错误日志、慢查询、调用链快照、最近变更记录。
  - 行动指引（Runbook）：提供标准的排查步骤、联系人、回滚方案等。
- 故障复盘驱动告警优化：参考“故障复盘后的告警如何加出效果”一文，每次故障复盘后，必须回答：“如果这个故障再来一次，我们的监控系统能在哪个环节、以什么方式提前发现？” 并据此新增或优化告警规则，确保复盘成果落地。
- 从“结果指标”到“过程指标”：不仅监控最终结果（如API成功率），更要监控关键过程指标（如队列积压、缓存命中率、数据库连接数），实现故障预警而非事后通知。
降低问题：提升告警的可操作性，缩短MTTR（平均恢复时间），避免“看到告警却不知如何下手”。

3. 架构与性能优化：打造高性能、可扩展的监控底座

怎么做：
- 选择或自研高性能时序数据库：如蚂蚁集团通过优化HoraeDB，将时序数据库性能提升2-4倍。关键在于：
  - 高效的数据压缩算法。
  - 优化的索引结构（如倒排索引）。
  - 分布式架构支持水平扩展。
- 优化查询性能：B站通过监控2.0架构升级，P90查询性能提升10倍。方法包括：
  - 数据分层存储（热数据SSD，冷数据HDD）。
  - 预计算与物化视图。
  - 查询缓存。
  - 优化查询语法与执行计划。
- 统一监控平台：整合Metrics、Logs、Traces（可观测性三支柱），实现“一点触发，全局关联”。货拉拉的智能监控实践强调了在多云环境下统一视图的重要性。
降低问题：确保在故障发生时，工程师能秒级获取所需数据，为快速定位提供坚实基础。

4. 提升用户体验与自动化：让监控“主动服务”

怎么做：
- 开箱即用的模板与仪表盘：如转转基于Prometheus+Grafana打造一体化监控，为不同技术栈（Java, Go, Redis, MySQL）预置标准化的监控模板和Dashboard，新服务接入只需简单配置即可拥有完整的监控视图。
- 自动化告警升级与通知：设置合理的通知策略：
  - P0告警：立即电话+短信+钉钉/企业微信，无人响应时自动升级到上级。
  - P1告警：钉钉/企业微信+短信，可设置静默期（如夜间）。
  - P2/P3告警：仅推送至群聊或日报。
- 自动化根因分析（AIOps）：在告警触发时，自动关联相关日志、调用链、变更记录，生成初步的根因假设，辅助工程师快速判断。
降低问题：降低使用门槛，提升响应效率，减少人为遗漏。

5. 建立告警治理的长效机制

怎么做：
- 设立“告警Owner”机制：每个告警规则必须有明确的负责人，负责其有效性维护。
- 定期审计：每月或每季度进行告警有效性审计，统计误报率、漏报率、平均响应时间等指标。
- 建立告警生命周期管理：从创建、评审、上线、监控、优化到下线，形成完整流程。
降低问题：确保监控告警体系能持续演进，避免“越用越乱”。

总结：监控告警体系建设的“黄金法则”

问题领域	核心教训	关键提升方法
告警泛滥	数量多≠质量高，噪音淹没关键信息	分级、聚合、收敛、动态基线、定期清理
告警无效	告警不提供足够上下文，无法指导行动	丰富上下文、绑定Runbook、复盘驱动优化、关注过程指标
性能瓶颈	查询慢，故障时“等不起”	优化时序数据库、分层存储、预计算、统一平台
体验不佳	接入复杂，使用门槛高	开箱即用模板、自动化通知、智能根因分析
缺乏闭环	告警管理混乱，越用越臃肿	设立Owner、定期审计、全生命周期管理

最终目标：构建一个精准、高效、智能、易用的监控告警体系，使其成为工程师的“得力助手”而非“骚扰电话”，真正实现从“被动救火”到“主动防御”的转变。

viplao

487

一、 核心问题与教训：为什么监控告警会“失效”？

二、 实践经验与提升方法：如何构建高效、可靠的监控告警体系