集成学习总结

集成学习的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。一般而言,通常所说的集成学习中的多个学习器都是同质的"弱学习器"。基于该弱学习器,通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器,进行集成后获得一个精度较好的"强学习器"。

目前集成学习算法大多源于bagging、boosting、stacking三种思想。

2 bagging

一种提高分类模型的方法。

(1) 从训练集\(S\)中有放回的随机选取数据集\(M\)\((∣M∣ < ∣S∣)\);

(2) 生成一个分类模型\(C\);

(3) 重复以上步骤\(m\)次,得到\(m\)个分类模型\(C_1,C_2,...,C_m\);

(4)对于分类问题,每一个模型投票决定,少数服从多数原则;

(5)对于回归问题,取平均值。

注意:这种抽样的方式会导致有的样本取不到,大约有\(\lim_{n \to \infty}(1-\frac{1}{n})^n\) = \(36.8%\)的样本取不到,这部分可用来做测试集。

优点: 通过减少方差来提高预测结果。

缺点: 失去了模型的简单性

2.1 Random Forest

是一种基于树模型的bagging算法改进的模型。假定数据集中有\(M\)个特征和 \(N\)个观测值。每一个树有放回的随机抽出\(N\)个观测值\(m\)(\(m=M\)或者\(m=logM\))个特征。把每一个单一决策树的结果综合起来。

优点:

(1) 减少了模型方差,提高了预测准确性。

(2) 不需要给树做剪枝。

(3) 在大规模数据集,尤其是特征较多的情况下,依然可以保持高效率。

(4) 不用做特征选择,并且可以给出特征变量重要性的排序估计。

缺点:

(1) 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合

(2) 对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。

3 boosting

每一轮根据上一轮的分类结果动态调整每个样本在分类器中的权重,训练得到k个弱分类器,他们都有各自的权重,通过加权组合的方式得到最终的分类结果(综合所有的基模型预测结果)。主要算法有AdaBoost/GBDT/Xgboost/LightGBM。

3.1 Adboost

给定数据集\(S\),它包含\(n\)个元组\((X_1,y_1),(X_2,y_2),...,(X_n,y_n)(X_1,y_1), (X_2,y_2), ..., (X_n,y_n)\),其中\(y_i\)是数据对象\(X_i\)的类标号。

(1) 开始时,Adaboost对每个训练元组赋予相等的权重\(1/n\)。组合分类器包含\(T\)个基本分类器。

(2) 针对第\(t\)个分类器\(M_t\)

首先,从S中的元组进行抽样,形成大小为\(n\)的训练集\(S_t\),此处抽样方式为有放回的抽样,抽样过程中,每个元组被选中的机会由它的权重决定;

然后,根据\(S_t\)导出(训练出)分类器\(M_t\),使用\(S_t\)检验分类器\(M_t\)的分类误差,并计算该分类器的“表决权”的权重;

最后,训练元组的权重根据分类器\(M_t\)的分类情况调整。

如果元组被错误分类,则它的权重增加。

如果元组被正确分类,则它的权重减少。

元组的权重反映元组被分类的困难程度——权重越高,被错误分类的可能性越高。然后,使用这些权重,为下一轮分类器(下一个分类器)产生训练样本。

其基本的思想是,当建立分类器时,希望它更关注上一轮分类器(上一个分类器)错误分类的元组。整个分类过程中,某些分类器对某些“困难”元组的分类效果可能比其他分类器好。这样,建立了一个互补的分类器系列。

用于二分类或多分类的应用场景。

优点

(1) 很好的利用了弱分类器进行级联。

(2)可以将不同的分类算法作为弱分类器。

(3)AdaBoost具有很高的精度。

(4) 相对于bagging算法和Random Forest算法,AdaBoost充分考虑的每个分类器的权重。

缺点:

(1) AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。

(2) 数据不平衡导致分类精度下降。

(3) 训练比较耗时,每次重新选择当前分类器最好切分点。

3.2 GBDT

采用决策树作为弱分类器的Gradient Boosting算法被称为GBDT,有时又被称为MART(Multiple Additive Regression Tree)。GBDT中使用的决策树通常为CART。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpdsff.html