1、前述
从本课时开始,我们讲解一个新的集成学习算法,GBDT。
首先我们回顾下有监督学习。假定有N个训练样本,, 找到一个函数 F(x),对应一种映射使得损失函数最小。即:
如何保证最小呢?就是通过我们解函数最优化的算法去使得最小,常见的有梯度下降这种方式。
2、向量空间的梯度下降:我们想想在梯度下降的时候,更新w是怎么更新的呢,先是随机找到一个w0,然后举根据梯度下降的迭代公式:
详细解释下这个公式,其中
意思是把损失函数先对w进行求导,得到一个导函数,或者说得到一组导函数,因为w是多元函数,得到了一组导函数之后,再把Wn-1这一组w带进去,得到一组值,这组值我们称作梯度,把梯度加个负号就是负梯度,乘一个λ是学习率。 这个公式整体的意思是 我只要把w加上一个L对于w的负梯度,把 作为∆w,加到原来的w上,新产生出来的w就是比原来的w要好一些,能让损失函数更小一些,这就是对于w参数的一个提升。所以接下来我们的迭代步骤就是w1=w0+△w0,w2=w1+△w1=w0+△w0+△w1,这里是把w2用w1表示出来。w3=w2+△w2=w0+△w0+△w1+△w2,....所以最终的wn可以表达为wn=w0+△w1+△w2+...+△w(n-1)。一般情况下我们初始的时候w0=0。所以最后可以表达为