深度学习中的优化算法总结 (2)

日期：2022-03-09 栏目：程序人生浏览：次

RMSProp 是 Geoff Hinton 提出的一种自适应学习率方法。RMSprop 和 Adadelta(这里没有介绍)都是为了解决 Adagrad 学习率急剧下降问题的。

迭代规则：

深度学习中的优化算法总结

引入一个衰减系数，让r每次都以一定的比例衰减，类似于Momentum中的做法。衰减系数使用的是指数加权平均，旨在消除梯度下降中的摆动，与Momentum的效果一样，某一维度的导数比较大，则指数加权平均就大，某一维度的导数比较小，则其指数加权平均就小，这样就保证了各维度导数都在一个量级，进而减少了摆动。允许使用一个更大的学习率。

优点：相比于AdaGrad，这种方法更好的解决了深度学习中过早的结束学习的问题；适合处理非平稳目标，对RNN效果很好。

缺点：引入的新的超参：衰减系数 $ρ ；$ $依然依赖于全局学习速率。$

5 Adam: Adaptive Moment Estimation

Adam本质上是带有动量项的RMSProp，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置矫正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。

迭代规则：

深度学习中的优化算法总结

优点：Adam 比其他适应性学习方法效果要好。适用于多数情况。

缺点：复杂。

6 如何选择优化算法

1 对于稀疏数据，尽量使用学习率可自适应的优化方法，不用手动调节，而且最好采用默认值。

2 SGD通常训练时间更长，但是在好的初始化和学习率调度方案的情况下（很多论文都用SGD），结果更可靠。

3 如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法。

转载注明出处：https://www.heiqu.com/zzwysz.html

深度学习中的优化算法总结 (2)

相关推荐