2015.05.28 事件回顾,深入解析和反思携程宕机事件
携程的这次事件,不管原因是什么,都会成为 IT 运维历史上的一个标志性事件。相信之后所有的 IT 企业和技术人员,都会去认真的反思,总结经验教训。但我相信,不同的人在不同的位置上,看到的东西可能是截然相反的,甚至可能会有不少企业的管理者受到误导,开始制定更严格的规章制度,严犯运维人员再犯事。在此,我想表明一下我的态度:这是一个由运维引发的问题,但真正的根源其实不仅仅在运维,预防和治理更应该从整个企业的治理入手。
IT 数字化服务运营管理 之 运营的人工智能 (AIOps): 监控、管理、控制
携程的这次事件,不管原因是什么,都会成为 IT 运维历史上的一个标志性事件。相信之后所有的 IT 企业和技术人员,都会去认真的反思,总结经验教训。但我相信,不同的人在不同的位置上,看到的东西可能是截然相反的,甚至可能会有不少企业的管理者受到误导,开始制定更严格的规章制度,严犯运维人员再犯事。在此,我想表明一下我的态度:这是一个由运维引发的问题,但真正的根源其实不仅仅在运维,预防和治理更应该从整个企业的治理入手。
研判银行间资金利率走势,对于分析债券市场而言非常重要。Facebook在2017年开源了一个时间序列… 继续阅读 运维工具 – 异常数据分析 Prophet时序预测实践
大伟,携程软件技术专家,关注企业级监控、日志、可观测性领域。 监控领域有三大块,分别是 Metric… 继续阅读 IT服务管理 -携程监控思路与存储升级 ClickHouse 实践经验
本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段… 继续阅读 IT服务治理 – 阿里为什么能抗住90秒100亿?负载均衡架构实践
孤立森林(isolation Forest)算法,2008年由刘飞、周志华等提出,算法不借助类似距离… 继续阅读 数字化运维 – 异常数据分析实践,孤立森林异常检测算法原理和实战
给大家整理了20种常用的分析模型 【注】资料、数据、代码、交流,文末获取。 1、5W2H分析 5w2… 继续阅读 运维工具 – 异常数据分析实践,10+个数据分析必会的数据模型
整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障,最小化的减少故障给业务带来的影响。… 继续阅读 最佳实践 – 运维服务器故障排查与定位常用命令
雷军每天都把卓越网的链接全部点击一遍,检查错误。作为软件工程师,雷军深知:软件工程没有银子弹,凡是可… 继续阅读 经验教训 – 软件工程没有银子弹,凡是可能出错的地方就一定会出错“24年了,终于有人发现curl的这个Bug了”
2019-1-20 凌晨一点多,拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料… 继续阅读 经验教训 – 凡是跟金额相关必要从业务角度进行监控,拼XX回应BUG事件回顾
Excel的分列功能可以将一列数据按照指定的分隔符拆分为多列,本节则要利用Python编程实现类似的… 继续阅读 运维工具 – 异常数据分析实践,批量拆分列数据或批量汇总数据