大白话5分钟带你走进人工智能-第31节集成学习之最通俗理解GBDT原理和过程

1、前述

从本课时开始,我们讲解一个新的集成学习算法,GBDT。

首先我们回顾下有监督学习。假定有N个训练样本,

$\{(X(1), y(1)),(X(2), y(2)), \cdots,(X(m), y(m))\}$

, 找到一个函数 F(x),对应一种映射使得损失函数最小。即:

                                                                               

F^{*}=\underset{F(X)}{\operatorname{argmin}} L(y, F(X))

如何保证最小呢?就是通过我们解函数最优化的算法去使得最小,常见的有梯度下降这种方式。

2、向量空间的梯度下降

我们想想在梯度下降的时候,更新w是怎么更新的呢,先是随机找到一个w0,然后举根据梯度下降的迭代公式:     

                                                                    

w_{n}=w_{n-1}+\left(-\lambda \frac{\partial L\left(y, w_{n-1}\right)}{\partial w_{n-1}}\right)

详细解释下这个公式,其中

                                                                                             

-\lambda \frac{\partial L\left(y, w_{n-1}\right)}{\partial w_{n-1}}

意思是把损失函数先对w进行求导,得到一个导函数,或者说得到一组导函数,因为w是多元函数,得到了一组导函数之后,再把Wn-1这一组w带进去,得到一组值,这组值我们称作梯度,把梯度加个负号就是负梯度,乘一个λ是学习率。 这个公式整体的意思是 我只要把w加上一个L对于w的负梯度,把

-\lambda \frac{\partial L\left(y, w_{n-1}\right)}{\partial w_{n-1}}

作为∆w,加到原来的w上,新产生出来的w就是比原来的w要好一些,能让损失函数更小一些,这就是对于w参数的一个提升。所以接下来我们的迭代步骤就是w1=w0+△w0,w2=w1+△w1=w0+△w0+△w1,这里是把w2用w1表示出来。w3=w2+△w2=w0+△w0+△w1+△w2,....所以最终的wn可以表达为wn=w0+△w1+△w2+...+△w(n-1)。一般情况下我们初始的时候w0=0。所以最后可以表达为

                                                                                            

w_{n}=\sum_{t=0}^{n} \Delta w_{t}

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpgssf.html