大白话5分钟带你走进人工智能-第31节集成学习之最通俗理解GBDT原理和过程 (3)

日期：2021-05-24 栏目：程序人生浏览：次

最开始不管用什么方法，已经得到了第一代G0(x)，这时能算出来损失函数，它是能让损失函数结果最小的那个G(x)吗？应该不是。我们希望把它修改修改，让它变好一些，能让损失函数降低。我令G1(x)=G0(x)加上损失函数对于G0的负梯度，即

$G_{1}(x)=G_{0}(x)+\left(-\lambda \frac{\partial L}{\partial G_{0}(x)}\right)$

即G1(x)=G0(x)+∆G0，此时的G1(x)就能比G(x)让损失函数变得更低一些了。然后依次G2(x)去迭代。G2(x)=G1(X)+∆G1，∆Gt应该等于损失函数L对于Gt的梯度，即

$\Delta Gt= \frac{\partial L\left(y, G \right)}{\partial G_{t}}$

只要每次加上的都是∆Gt这么个东西，每一步带入各自的∆Gt，第一次带入∆G0，第二次带入∆G1，以此类推，就能保证最后得到的G一次比一次的能够让损失函数变小。一直到GT(X)=GT-1(X)+∆GT-1。此时GT(X)就是我们最终要得到的GT(X)。表达如下：

$\\G_{1}(x)=G_{0}(x)+\Delta G_{0} \\ \\ \quad G_{2}(x)=G_{1}(x)+\Delta G_{1} \\...\\ G_{T}(x)=G_{T-1}(x)+\Delta G_{T-1}$