携程的这次事件,不管原因是什么,都会成为 IT 运维历史上的一个标志性事件。相信之后所有的 IT 企业和技术人员,都会去认真的反思,总结经验教训。但我相信,不同的人在不同的位置上,看到的东西可能是截然相反的,甚至可能会有不少企业的管理者受到误导,开始制定更严格的规章制度,严犯运维人员再犯事。在此,我想表明一下我的态度:这是一个由运维引发的问题,但真正的根源其实不仅仅在运维,预防和治理更应该从整个企业的治理入手。

孤立森林(isolation Forest)算法,2008年由刘飞、周志华等提出,算法不借助类似距离… 继续阅读 数字化运维 – 异常数据分析实践,孤立森林异常检测算法原理和实战

雷军每天都把卓越网的链接全部点击一遍,检查错误。作为软件工程师,雷军深知:软件工程没有银子弹,凡是可… 继续阅读 经验教训 – 软件工程没有银子弹,凡是可能出错的地方就一定会出错“24年了,终于有人发现curl的这个Bug了”

2019-1-20 凌晨一点多,拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料… 继续阅读 经验教训 – 凡是跟金额相关必要从业务角度进行监控,拼XX回应BUG事件回顾