大白话5分钟带你走进人工智能-第31节集成学习之最通俗理解GBDT原理和过程

日期：2021-05-24 栏目：程序人生浏览：次

1、前述

从本课时开始，我们讲解一个新的集成学习算法，GBDT。

首先我们回顾下有监督学习。假定有N个训练样本，

$\{(X(1), y(1)),(X(2), y(2)), \cdots,(X(m), y(m))\}$

，找到一个函数 F(x)，对应一种映射使得损失函数最小。即：

$F^{*}=\underset{F(X)}{\operatorname{argmin}} L(y, F(X))$

如何保证最小呢？就是通过我们解函数最优化的算法去使得最小，常见的有梯度下降这种方式。

2、向量空间的梯度下降：

我们想想在梯度下降的时候，更新w是怎么更新的呢，先是随机找到一个w0，然后举根据梯度下降的迭代公式：

$w_{n}=w_{n-1}+\left(-\lambda \frac{\partial L\left(y, w_{n-1}\right)}{\partial w_{n-1}}\right)$

详细解释下这个公式，其中

$-\lambda \frac{\partial L\left(y, w_{n-1}\right)}{\partial w_{n-1}}$

意思是把损失函数先对w进行求导，得到一个导函数，或者说得到一组导函数，因为w是多元函数，得到了一组导函数之后，再把Wn-1这一组w带进去，得到一组值，这组值我们称作梯度，把梯度加个负号就是负梯度，乘一个λ是学习率。这个公式整体的意思是我只要把w加上一个L对于w的负梯度，把

$-\lambda \frac{\partial L\left(y, w_{n-1}\right)}{\partial w_{n-1}}$

作为∆w，加到原来的w上，新产生出来的w就是比原来的w要好一些，能让损失函数更小一些，这就是对于w参数的一个提升。所以接下来我们的迭代步骤就是w1=w0+△w0，w2=w1+△w1=w0+△w0+△w1，这里是把w2用w1表示出来。w3=w2+△w2=w0+△w0+△w1+△w2，....所以最终的wn可以表达为wn=w0+△w1+△w2+...+△w(n-1)。一般情况下我们初始的时候w0=0。所以最后可以表达为

$w_{n}=\sum_{t=0}^{n} \Delta w_{t}$

转载注明出处：https://www.heiqu.com/wpgssf.html

大白话5分钟带你走进人工智能-第31节集成学习之最通俗理解GBDT原理和过程

相关推荐