SRE 到底是什么
SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化… 继续阅读 SRE 到底是什么
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化… 继续阅读 SRE 到底是什么
Facebook大故障原因:一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS… 继续阅读 2021.10.07 一行小错为何产生巨大破坏-Facebook史诗级故障大反思学习
事故背景支付宝拥有超过4万亿年交易总额,是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之… 继续阅读 2015.5·27支付宝大规模宕机事故反思学习
携程的这次事件,不管原因是什么,都会成为 IT 运维历史上的一个标志性事件。相信之后所有的 IT 企业和技术人员,都会去认真的反思,总结经验教训。但我相信,不同的人在不同的位置上,看到的东西可能是截然相反的,甚至可能会有不少企业的管理者受到误导,开始制定更严格的规章制度,严犯运维人员再犯事。在此,我想表明一下我的态度:这是一个由运维引发的问题,但真正的根源其实不仅仅在运维,预防和治理更应该从整个企业的治理入手。
研判银行间资金利率走势,对于分析债券市场而言非常重要。Facebook在2017年开源了一个时间序列… 继续阅读 运维工具 – 异常数据分析 Prophet时序预测实践
大伟,携程软件技术专家,关注企业级监控、日志、可观测性领域。 监控领域有三大块,分别是 Metric… 继续阅读 IT服务管理 -携程监控思路与存储升级 ClickHouse 实践经验
本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段… 继续阅读 IT服务治理 – 阿里为什么能抗住90秒100亿?负载均衡架构实践
孤立森林(isolation Forest)算法,2008年由刘飞、周志华等提出,算法不借助类似距离… 继续阅读 数字化运维 – 异常数据分析实践,孤立森林异常检测算法原理和实战
给大家整理了20种常用的分析模型 【注】资料、数据、代码、交流,文末获取。 1、5W2H分析 5w2… 继续阅读 运维工具 – 异常数据分析实践,10+个数据分析必会的数据模型
整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障,最小化的减少故障给业务带来的影响。… 继续阅读 最佳实践 – 运维服务器故障排查与定位常用命令