智汇华云 | AIOps之动态阈值—XGBoost模型详解-华云数据集团

智汇华云 | AIOps之动态阈值—XGBoost模型详解

来源：华云公众号更新时间：2019-08-23

AIOps作为一个全新的技术发展和应用方向，受到了行业内的一致关注，甚至有人认为其能够替代传统解决方案，使应用复杂的下一代技术成为可能。本期“智汇华云”专栏为您带来“AIOps之动态阈值“的系列文章“AIOps之动态阈值—XGBoost模型详解”。

/upload/image/20190823/793fe01b610cae170d6f74b7d65c08ed.jpg

在以大数据、云计算、人工智能为代表的新一代信息技术的推动下， IT技术架构悄然变迁，从传统“IOE架构”走向“互联网架构”。互联网架构所涉及的网元数、技术栈、服务数等元素成倍剧增，使得运维压力越来越大。这样的趋势下，运维管理模式从ITIL向DevOps演化，运维管理工具也发生了从ITOM、ITOA到AIOps的颠覆性变革。

AIOps作为一个全新的技术发展和应用方向，受到了行业内的一致关注，甚至有人认为其能够替代传统解决方案，使应用复杂的下一代技术成为可能。

本期“智汇华云”专栏为您带来“AIOps之动态阈值“的系列文章“AIOps之动态阈值—XGBoost模型详解”。

本期讲解人

/upload/image/20190823/18425d33f39e01fe7df110a9ba8f28d1.png

张歆纬

华云数据运维开发组研发工程师

上一期我们讲解了动态阈值中用到的SARIMA模型，用于预测指标动态阈值，从而检测异常。这一期给大家讲解动态阈值中用到的另一个算法——XGBoost。

目标函数 Objective Function

对于一个模型，我们需要定义一个目标函数来衡量模型的性能。目标函数会包含两个部分：训练损失(Training Loss)和正则项(Regularization Term)：

其中L代表训练损失，代表正则项。训练损失是衡量我们的模型对于训练数据的预测性的，一般L会选取均方误差(MSE)：

正则项控制了模型的复杂度，可以帮助我们避免过拟合。

决策树 Decision Tree

要理解XGBoost，首先要了解一下决策树，下图就是一个典型的决策树模型。

/upload/image/20190823/21d37b46464a0fc824c48d98c78e6a00.png

对于一个电脑游戏X，我们要预测这五人中哪些可能喜欢它，哪些可能不喜欢它。我们输入的特征有这五人的年龄、性别、职业等等。比如，针对年龄特征，我们觉得年龄小于20的人会喜欢这个电脑游戏X，于是我们可以根据年龄特征将五人分为两类。CART(Classification And Regression Trees)比普通的决策树更复杂些，在叶节点上，CART会给出一个具体的分数。一般来说，单个树不足以在实际中使用，我们会使用集成模型，集成模型会把多棵树的预测结果进行集成。

集成学习 Ensemble Learning

如果你随机向几千个人询问一个复杂的问题，然后汇总他们的回答，你往往会发现，这个汇总的回答比专家的答案要好，这被称为群体智慧。同样的，如果你聚合一组预测器的预测结果，得到的预测结果也比最好的单个预测器要好。

/upload/image/20190823/c1e8830274e291b9da3a6f85b3dbe462.png