当然也可以将损失函数展开成2次(比如牛顿迭代法),但这并不实用,因为要计算二次微分,甚至可能要求出海森矩阵(Hessian Matrix)逆矩阵等等,这些在做深度学习时是不实用的。
梯度下降的局限性梯度下降过程中,每次参数更新不一定都会使损失函数的值更小。
求出的只是局部最小值(Local Minima)甚至是鞍点(Saddle Point),不一定是全局最优解。
Github(github.com):@chouxianyu
Github Pages(github.io):@臭咸鱼
知乎(zhihu.com):@臭咸鱼
博客园(cnblogs.com):@臭咸鱼
B站(bilibili.com):@绝版臭咸鱼
微信公众号:@臭咸鱼的快乐生活