本文主要介绍了蚂蚁集团大规模互联网系统中业务SRE的稳定性实践,包括业务SRE的定义、应急管理、大促稳定性保障等方面,具体内容如下:

1. 业务SRE定义

– SRE概念:SRE是结合软件工程和IT运维原则,通过编程和自动化提高系统稳定性、可扩展性和效率的实践和角色,业务SRE则专注于特定业务系统的可靠性和效率。

– 工作内容:确保业务系统稳定可用,优化性能提升用户体验,定制监控告警机制,快速定位修复故障,与开发团队协作推动功能发布与系统稳定平衡。

– 稳定性大图:涉及业务专项、故障应急、大/新型活动保障、体验受阻治理、成本管控等,通过多种技术和平台构建风险能力。

– 业务分类与专项定义路径:包括商业转化类、成功率类等,以商业转化类为例,需分析主要链路、梳理关键问题并给出解决方案。

2. 蚂蚁应急介绍

– 应急要求:遵循1 – 5 – 10原则,即1分钟发现、5分钟响应、10分钟恢复,同时观测30分钟恢复情况,面临应急告警繁多、定位难等难点。

– 发展历史:历经古早期、工具发展期、体系成熟期、适配环境变化迭代升级期,在应急值班长体系、应急调度能力、定位恢复能力等方面不断演进。

– 值班长机制:包括选拔、任期、人数控制等规定,设有激励机制。

– 应急一张图:展示了从告警到恢复各阶段的时效性、召回率等指标及相关技术和人员职责。

– 应急产品:涵盖蓝军攻防、电话预警、故障体系等,包括智能应急工具箱、端智能应急产品等,提升应急各环节能力。

– 应急技术:通过应急产品矩阵实现快速发现、定位和止血,包含定位中台、预案限流等多种技术手段。

3. 蚂蚁大促稳定性

– 大促分级及SOP:根据用户人群、BG、预算、敏感性等因素将大促分为S +级、S级、A级、B级、C级及以下,各级别保障动作和参与角色不同。

– 常态化大促SaaS化服务:涉及活动主办业务方、承办方及相关方,提供风险治理、容量规划、预案限流等多项服务。

– 支付峰值型大促:面临商户峰值时间不确定、秒杀峰值高、链路热点等挑战,通过常态化压测、自适应降级等措施提前布防。

– 玩法峰值型大促:针对营销玩法复杂、C端行为难预测、端增压力大等挑战,采取预算管控、限流体验验证等解决方案。

– 大促流量预测技术:实现活动自动感知、链路自动积累、流量预测及自动扩缩容等功能。

– 大促资源超卖技术:基于三层混布超卖资源,通过大规模压测确定超卖阈值,利用动态负载预测和回收保障资源利用。

以下为报告节选内容