最开始不管用什么方法,已经得到了第一代G0(x),这时能算出来损失函数,它是能让损失函数结果最小的那个G(x)吗?应该不是。我们希望把它修改修改,让它变好一些,能让损失函数降低。我令G1(x)=G0(x)加上损失函数对于G0的负梯度,即
即G1(x)=G0(x)+∆G0,此时的G1(x)就能比G(x)让损失函数变得更低一些了。然后依次G2(x)去迭代。G2(x)=G1(X)+∆G1,∆Gt应该等于损失函数L对于Gt的梯度,即
只要每次加上的都是∆Gt这么个东西,每一步带入各自的∆Gt,第一次带入∆G0,第二次带入∆G1,以此类推,就能保证最后得到的G一次比一次的能够让损失函数变小。一直到GT(X)=GT-1(X)+∆GT-1。此时GT(X)就是我们最终要得到的GT(X)。表达如下: