[Machine Learning]学习笔记-Neural Networks (2)

日期：2021-05-20 栏目：程序人生浏览：次

链式法则更新如下：
\[ \begin{split}\frac{C_0}{\partial \omega_{jk}^{(L)}}&= \frac{\partial z_j^{(L)}}{\partial \omega_{jk}^{(L)}}\frac{\partial a_j^{(L)}}{\partial z_j^{(L)}}\frac{\partial C_0}{\partial a_j^{(L)}}\\ &=a^{L-1}_k \sigma\prime(z^{(L)}_j)2(a^{(L)}_j-y_j) \end{split}\]
而要把这个公式递推到其它层求\(\frac{C}{\partial \omega_{jk}^{(l)}}\)时，只需要变动公式中的\(\frac{\partial C}{\partial a_j^{(l)}}\)即可。
总结如下：

[Machine Learning]学习笔记-Neural Networks

所以，可以发现，计算梯度时，前两项\(a^{l-1}_k ,\sigma\prime(z^{(l)}_j)\)是可以直接算出的，而最后一项，则可以先计算出\(\frac{\partial C0}{\partial a_j^{(L)}}\)，然后一层层向前传播即可，反向传播大概也就是这么个意思吧。
Andrew机器学习课程中给出了计算方法，也可以按这个思路去理解了。

[Machine Learning]学习笔记-Neural Networks

TIPS:随机梯度下降法（Stochastic gradient descent）

[Machine Learning]学习笔记-Neural Networks

在之前的batch model中，每次更新权值都要遍历所有的样本然后取均值，这样效率太低，可以把样本分成数个大小相等的mini-batch，每次遍历完一个mini-batch，就更新下权值，虽然下降的路线未必最短，但速度上提升不少，这就是随机梯度下降算法。

转载注明出处：https://www.heiqu.com/wpzxfx.html

[Machine Learning]学习笔记-Neural Networks (2)

相关推荐