重置门:reset gate,\(z_t\),控制需要从前的忘记多少信息和从当前的信息里保留多少信息。
更新门:update gate,\(r_t\),控制需要保留多少之前的信息,这个和 LSTM 中的相同。
其实如果你已经理解了LSTM的公式,那么可以从右侧的公式中很容易就能看出两个门控的作用。
如果当前的任务是处理具有长期依赖的信息,那么更新门会起到比较大的作用。
如果是处理短期依赖的信息,那么重置门会起到比较大的作用。
如果 \(r_t\) 为 1,\(z_t\) 为 0,GRU 就变成了传统的RNN
LSTM 和 GRU 对比GRU 参数更少,计算更容易,更容易收敛。但是 LSTM 更适用于处理数据集很大的任务。因为它的表达能力更强
GRU 只有两个门,而LSTM有三个门。GRU 没有 output gate,而是直接把得到的 \(h_t\),即隐藏单元的输出传给下一个 time step。而 LSTM 利用一个 output gate 将 \(h_t\) 再进行一次处理之后再输出。
常见面试问题什么是 RNN
RNN 为什么好
RNN 容易梯度消失,怎么解决?
LSTM 和 RNN 的区别
LSTM 每个门的公式
LSTM 和 GRU 的原理
画出 GRU 的结构
推导 LSTM 正向传播和反向传播的过程
参考资料Understanding LSTM Networks, Posted on August 27, 2015
Deep Learning, Ian Goodfellow, Yoshua Bengio and Aaron Courville
老师上课讲的内容 ( ̄▽ ̄)"