最佳实践 – 测试定位问题思路
为什么定位问题如此重要? 可以明确一个问题是不是真的“bug” 很多时候,我们找到了问题的原因,结果… 继续阅读 最佳实践 – 测试定位问题思路
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
为什么定位问题如此重要? 可以明确一个问题是不是真的“bug” 很多时候,我们找到了问题的原因,结果… 继续阅读 最佳实践 – 测试定位问题思路
导读:讲述在业务快速迭代发展过程中,为了让大数据更好地赋能业务,高效的为用户提供有业务价值的数据产品… 继续阅读 数据治理 – XX业务数据分析体系的架构与实践
SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化… 继续阅读 SRE 到底是什么
Facebook大故障原因:一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS… 继续阅读 2021.10.07 一行小错为何产生巨大破坏-Facebook史诗级故障大反思学习
事故背景支付宝拥有超过4万亿年交易总额,是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之… 继续阅读 2015.5·27支付宝大规模宕机事故反思学习
携程的这次事件,不管原因是什么,都会成为 IT 运维历史上的一个标志性事件。相信之后所有的 IT 企业和技术人员,都会去认真的反思,总结经验教训。但我相信,不同的人在不同的位置上,看到的东西可能是截然相反的,甚至可能会有不少企业的管理者受到误导,开始制定更严格的规章制度,严犯运维人员再犯事。在此,我想表明一下我的态度:这是一个由运维引发的问题,但真正的根源其实不仅仅在运维,预防和治理更应该从整个企业的治理入手。
研判银行间资金利率走势,对于分析债券市场而言非常重要。Facebook在2017年开源了一个时间序列… 继续阅读 运维工具 – 异常数据分析 Prophet时序预测实践
大伟,携程软件技术专家,关注企业级监控、日志、可观测性领域。 监控领域有三大块,分别是 Metric… 继续阅读 IT服务管理 -携程监控思路与存储升级 ClickHouse 实践经验
本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段… 继续阅读 IT服务治理 – 阿里为什么能抗住90秒100亿?负载均衡架构实践
孤立森林(isolation Forest)算法,2008年由刘飞、周志华等提出,算法不借助类似距离… 继续阅读 数字化运维 – 异常数据分析实践,孤立森林异常检测算法原理和实战