大白话5分钟带你走进人工智能-第31节集成学习之最通俗理解GBDT原理和过程 (3)

最开始不管用什么方法,已经得到了第一代G0(x),这时能算出来损失函数,它是能让损失函数结果最小的那个G(x)吗?应该不是。我们希望把它修改修改,让它变好一些,能让损失函数降低。我令G1(x)=G0(x)加上损失函数对于G0的负梯度,即             

                                                                     

G_{1}(x)=G_{0}(x)+\left(-\lambda \frac{\partial L}{\partial G_{0}(x)}\right)

即G1(x)=G0(x)+∆G0,此时的G1(x)就能比G(x)让损失函数变得更低一些了。然后依次G2(x)去迭代。G2(x)=G1(X)+∆G1,∆Gt应该等于损失函数L对于Gt的梯度,即

                                                                                         

\Delta Gt= \frac{\partial L\left(y, G \right)}{\partial G_{t}}

只要每次加上的都是∆Gt这么个东西,每一步带入各自的∆Gt,第一次带入∆G0,第二次带入∆G1,以此类推,就能保证最后得到的G一次比一次的能够让损失函数变小。一直到GT(X)=GT-1(X)+∆GT-1。此时GT(X)就是我们最终要得到的GT(X)。表达如下:

                                                                                       

\\G_{1}(x)=G_{0}(x)+\Delta G_{0} \\ \\ \quad G_{2}(x)=G_{1}(x)+\Delta G_{1} \\...\\ G_{T}(x)=G_{T-1}(x)+\Delta G_{T-1}

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpgssf.html