集成学习总结 (2)

日期：2021-05-27 栏目：程序人生浏览：次

用一个很简单的例子来解释一下GBDT训练的过程，如图下图所示。模型的任务是预测一个人的年龄，训练集只有A、B、C、D 4个人，他们的年龄分别是14、16、24、26，特征包括了 "月购物金额"、"上网时长"、"上网历史" 等。

下面开始训练第一棵树:

训练的过程跟传统决策树相同，简单起见，我们只进行一次分枝。训练好第一棵树后，求得每个样本预测值与真实值之间的残差。

可以看到，A、B、C、D的残差分别是−1、1、−1、1。

这时我们就用每个样本的残差训练下一棵树，直到残差收敛到某个阈值以下，或者树的总数达到某个上限为止。

由于GBDT是利用残差训练的，在预测的过程中，我们也需要把所有树的预测值加起来，得到最终的预测结果。

优点：

（1）预测阶段的计算速度快，树与树之间可并行化计算。

（2）在分布稠密的数据集上，泛化能力和表达能力都很好，这使得GBDT在Kaggle的众多竞赛中，经常名列榜首。

（3）采用决策树作为弱分类器使得GBDT模型具有较好的解释性和鲁棒性，能够自动发现特征间的高阶关系，并且也不需要对数据进行特殊的预处理如归一化等。

缺点:

（1）GBDT在高维稀疏的数据集上，表现不如支持向量机或者神经网络。

（2）GBDT在处理文本分类特征问题上，相对其他模型的优势不如它在处理数值特征时明显。

（3）训练过程需要串行训练，只能在决策树内部采用一些局部并行的手段提高训练速度。

3.3 Xgboost

XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进。

目标函数：
\[L^{(t)} = \sum_{i=1}^{n}l(y_i, \hat{y}_i^{(t)}) + \Omega(f_t) \]

优点：

(1)计算效率高，使用了二阶导。

(2)有正则化，减少过拟合。

(3)列特征抽样减少过拟合，同时有利于并行计算。

缺点：

(1)每次迭代时都要遍历整个数据集。

(2)内存占用大。

3.4 GBDT与XGboost联系与区别

(1) GBDT是机器学习算法，XGBoost是该算法的工程实现。

(2) 在使用CART作为基分类器时，XGBoost显式地加入了正则项来控制模型的复杂度，有利于防止过拟合，从而提高模型的泛化能力。

(3) GBDT在模型训练时只使用了代价函数的一阶导数信息，XGBoost对代价函数进行二阶泰勒展开，可以同时使用一阶和二阶导数。

(4) 传统的GBDT采用CART作为基分类器，XGBoost支持多种类型的基分类器，比如线性分类器。

(5) 传统的GBDT在每轮迭代时使用全部的数据，XGBoost则采用了与随机森林相似的策略，支持对数据进行采样。

(6) 传统的GBDT没有设计对缺失值进行处理，XGBoost能够自动学习出缺失值的处理策略。

3.5 LightGBM

LightGBM也是一种基于决策树的梯度提升算法，相比XGboost有做了许多改进。
在树分裂计算分裂特征的增益时，xgboost 采用了预排序的方法来处理节点分裂，这样计算的分裂点比较精确。但是，也造成了很大的时间开销。为了解决这个问题，Lightgbm 选择了基于 histogram 的决策树算法。相比于pre-sorted算法，histogram在内存消耗和计算代价上都有不少优势。

Histogram算法简单来说，就是先对特征值进行装箱处理，形成一个一个的bins。在Lightgbm中默认的#bins为256（1个字节的能表示的长度，可以设置）。具体如下：

(1) 把连续的浮点特征值离散化成N个整数，构造一个宽度为N的直方图；对于分类特征，则是每一种取值放入一个bin，且当取值的个数大于max_bin数时，会忽略那些很少出现的category值。

(2) 遍历数据时，根据离散化后的值作为索引在直方图中累积统计量。

(3) 一次遍历后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点。

Level-wise 和 Leaf-wise

相对于xgboost的level—wise的生长策略，lightgbm使用了leaf-wise树生长策略。由于level-wise在分裂时，部分增益小的树也得到了增长，虽然容易控制误差，但是分裂有时是不合理的，而lightgbm使用level-wise，只在增益大的树上分裂生长，甚至对Feature f如果分裂无收益，那么后续也将不会对f计算。体现在参数上，xgboost使用max_depth，而lightgbm使用num_leaves控制过拟合。

转载注明出处：https://www.heiqu.com/wpdsff.html

集成学习总结 (2)

相关推荐