1、前述
从本课时开始,我们讲解一个新的集成学习算法,GBDT。
首先我们回顾下有监督学习。假定有N个训练样本,
如何保证最小呢?就是通过我们解函数最优化的算法去使得最小,常见的有梯度下降这种方式。
2、向量空间的梯度下降:我们想想在梯度下降的时候,更新w是怎么更新的呢,先是随机找到一个w0,然后举根据梯度下降的迭代公式:
详细解释下这个公式,其中
意思是把损失函数先对w进行求导,得到一个导函数,或者说得到一组导函数,因为w是多元函数,得到了一组导函数之后,再把Wn-1这一组w带进去,得到一组值,这组值我们称作梯度,把梯度加个负号就是负梯度,乘一个λ是学习率。 这个公式整体的意思是 我只要把w加上一个L对于w的负梯度,把

