Encoder层:采用了双向的RNN网络,最后隐层的输出是两个向量的拼接 ht=[←ht,→ht]。
Attention层:
其中
在上面公式中 hj 是Encoder层的隐层第 j 时刻的输出,si−1 是Decoder层第 i−1 时刻隐层的输出。可以发现在计算 ci 的模型实际上是一个线性模型,而且 ci 事实上是Encoder层中各时刻隐层的输出的加权平均值。
Encoder层:采用了双向的RNN网络,最后隐层的输出是两个向量的拼接 ht=[←ht,→ht]。
Attention层:
其中
在上面公式中 hj 是Encoder层的隐层第 j 时刻的输出,si−1 是Decoder层第 i−1 时刻隐层的输出。可以发现在计算 ci 的模型实际上是一个线性模型,而且 ci 事实上是Encoder层中各时刻隐层的输出的加权平均值。
内容版权声明:除非注明,否则皆为本站原创文章。