梯度消失和梯度爆炸及解决方案

梯度在神经网络中的作用

在谈梯度消失和梯度爆炸的问题之前,我们先来考虑一下为什么我们要利用梯度,同时铺垫一些公式,以便于后面的理解。

存在梯度消失和梯度爆炸问题的根本原因就是我们在深度神网络中利用反向传播的思想来进行权重的更新。即根据损失函数计算出的误差,然后通过梯度反向传播来减小误差、更新权重。

我们假设,存在一个如图所示的简单神经网络,我们可以得到相关的公式如右侧所示:

梯度消失和梯度爆炸及解决方案

其中函数 g 是激活函数,c 是偏置值,t 是目标值,E 是损失函数,这里利用的是平方误差损失函数。我们可以很清晰的看出,其实整个神经网络就是一个复合函数:

\[z = g((c+v_1(g(b_1+w_{11}x_1+w_{12}x_2))+v_2{g(b_2+w_{21}x_1+w_{22}x_2)})) \]

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wssxsj.html