[深度概念]·深度学习之Attention Model（注意力模型）学习笔记 (8)

日期：2022-01-11 栏目：程序人生浏览：次

4..权重如何优化，只要把权重表示好，使得网络可以通过前向传播，使用Encoder-Decoder框架的loss就可以把权重与其他网络参数优化好。

5.Attention机制的本质思想

如果把Attention机制从上文讲述例子中的Encoder-Decoder框架中剥离，并进一步做抽象，可以更容易看懂Attention机制的本质思想。

[深度概念]·深度学习之Attention Model（注意力模型）学习笔记

图9 Attention机制的本质思想

我们可以这样来看待Attention机制（参考图9）：将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成，此时给定Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。即可以将其本质思想改写为如下公式：

[深度概念]·深度学习之Attention Model（注意力模型）学习笔记

其中，

[深度概念]·深度学习之Attention Model（注意力模型）学习笔记

=||Source||代表Source的长度，公式含义即如上所述。上文所举的机器翻译的例子里，因为在计算Attention的过程中，Source中的Key和Value合二为一，指向的是同一个东西，也即输入句子中每个单词对应的语义编码，所以可能不容易看出这种能够体现本质思想的结构。

转载注明出处：https://www.heiqu.com/zwfxpw.html

[深度概念]·深度学习之Attention Model（注意力模型）学习笔记 (8)

相关推荐