李宏毅机器学习课程笔记-3.梯度下降精讲 (2)

当然也可以将损失函数展开成2次(比如牛顿迭代法),但这并不实用,因为要计算二次微分,甚至可能要求出海森矩阵(Hessian Matrix)逆矩阵等等,这些在做深度学习时是不实用的。

梯度下降的局限性

梯度下降过程中,每次参数更新不一定都会使损失函数的值更小。

求出的只是局部最小值(Local Minima)甚至是鞍点(Saddle Point),不一定是全局最优解。

Github(github.com):@chouxianyu

Github Pages(github.io):@臭咸鱼

知乎(zhihu.com):@臭咸鱼

博客园(cnblogs.com):@臭咸鱼

B站(bilibili.com):@绝版臭咸鱼

微信公众号:@臭咸鱼的快乐生活

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyppfy.html