这里的y-fm-1(x)=r即为残差,这就表明每一次进行回归树生成时采用的训练数据都是上次预测结果与训练数据值之间的残差。这个残差会逐渐的减小。
其具体算法如下:
初始化决策函数f0(x)=0;
对于迭代次数1~M:
计算残差:
拟合残差rmi,选择平方损失函数最小的切分点学习到一颗回归树,得到hm(x)
更新fm(x)=fm-1+hm(x)
最终得到提升树模型:
暂时就先到这里吧,决策树和集成学习放在一起内容有点多,后边还有比较重要的GBDT和XGBoost,还有很多地方理解不是很透彻,继续学习。前一部分大概内容就是这样,不是很全面,后续会对这一块内容加深理解,会回头进行内容上的补充,也尽可能添加一些示例。