在阿里巴巴隐藏着很多神秘的部门,GOC就是其中之一,你在互联网甚至搜不到关于它的一丁点儿信息。但就是这么一个“名不见经传”的部门,却“指挥”着阿里巴巴旗下几乎所有业务的运行情况。

它的名字有点儿高大上——Alibaba Global Operations Center,阿里巴巴全球运行指挥中心。

GOC从何而来?

要掰扯一下GOC的诞生历程,还得从“远古”的2012年说起。

在2012年及以前,阿里的各个BU都拥有独立的研发团队、监控系统、监控中心执行标准和流程规范。感觉就像是春秋时期,诸侯各自为政。

各自为政其实也没有什么,但要命的是,当时的监控系统处理能力有限,毕竟,监控项都在百万以下,存储量也不过几十个TB。

这不是个事儿啊!

于是在2012年-2014年,开始转型升级。各个BU开始进行监控体系的整合,包括研发团队合并,监控中心的执行流程也开始统一化、标准化,这些动作都产生了极为明显的催化作用。

整合之后的监控系统的处理能力、分析能力和存储能力都得到了极大的增强,存储数据量从TB级窜升至PB级。自此,运行监控进入大数据时代!

到了2015年,GOC正式成立。其定位管理生产环境所有问题,打通实时监控、发现、通告、快速恢复、事后复盘、落实全生命周期管控,注重监控运营效率与大数据分析,快速定位与恢复能力。

有木有战力爆棚的感觉!

VIP的监控中心NOC 何来?

2012 年末,建立 IOCC 技术运营指挥中心,主要以管控生产事件为主

2013 年 “第一场史无前例的特卖会 4.19”,在CTO布置策略下,由IOCC团队主导与组织技术核心骨干在促销前做好应急预案、事中业务巡检、应急响应、应急处理等三大管控手段,成功保障大促顺利完成,打破每次大促技术背锅痛点,同时新商业模式诞生“特卖”, 为用户造个节日

2015 由IOCC 改名为 NOC (Network Operations Center)网络运营中心又称监控中心,主要核心责职是指挥调度中心、沟通中心、监控中心等,主要是以ITIL为服务管理最佳实践,在VIP实施与管理

以阿里GOC一样,业务规模小一些,核心目标一致,管控生产环境健康、稳定、有序运行

通过多场促销不断的实践,检验NOC真实战略

NOC的战力究竟如何?
第一步就是夯实最基础的能力,即监控系统的处理能力。当前,NOC支持从IDC机房、网络、系统、应用到业务的全方位监控,在业务监控通过SIRIUS建立全视角业务模型,其业务数据与系统数据可实现秒级采集分析,而且每天可处理以几十W的报警通知量。

你第二重“神功”—— 告警治理能力

最能体现NOC自动化特征的就是通过 Pigeon 系统,它已经具备了极高的自动化告警治理能力。比如,

告警抑制、告警静默、告警合并、自适应收敛、智能化检测、告警关联其他指标、调用链等信息。针对常规类告警实现智能判断智能处理。

但,这还没完!

NOC还拥有第三重功力,也就是异常突发情况的处理能力。众所周知,NOC面临着的很可能是前所未有的、突发的、异常的情况。为此,NOC也进行了精心的布局与准备。

在硬件层面,NOC指挥室的超大拼接屏可以全链路地、实时地展示基础架构和业务的情况。另外,NOC还具备分钟级的快速接入音、视频电话会议能力,大大缩短了应急反应时间。

在软件层面。NOC的应急响应系统能够涵盖值班盯屏、应急响应、业务巡检、网络信息、信息流转等流程,并将报警信息进行汇总、处理、分析和跟踪。而NOC信息发布中心是将故障处理过程与故障全程信息透明化。NOC全域信息系统汇集则变更、发布、预案执行、演练、活动、舆情等信息,让NOC的信息更全面、更实时为决策提供依据。

通过这些设计,NOC的能力再度提升一个档次。即便生产环境发生故障,NOC也会在第一时间得到异常报警,并在几分钟之内将故障的现象及影响通知于相关的处理人和决策者,然后调度相关资源进行协调处理、排查和恢复。

发表回复