注意力机制总结 (3)

日期：2022-08-21 栏目：程序人生浏览：次

上下文向量$c_i$由编码器的所有隐向量加权得到$c_i=\sum^n_{t=1}{\alpha_{i,t}h_t}$，其中$\sum_{t=1}^n{\alpha_{i,t}=1}$，$\alpha_{i,t} \geq 0$。

Additive Attention

注意力机制总结

（Additive Attention，又名 Bahdanau Attention）

$$\boldsymbol{h}_i = [\overrightarrow{\boldsymbol{h}}_i^\top; \overleftarrow{\boldsymbol{h}}_i^\top]^\top, i=1,\dots,n$$

（1）score function

$$\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \mathbf{v}_a^\top \tanh(\mathbf{W}_a[\boldsymbol{s}_t; \boldsymbol{h}_i])$$

（2）alignment function

$$\alpha_{t,i} = \text{align}(y_t, x_i) = \frac{\exp(\text{score}(\boldsymbol{s}_{t-1}, \boldsymbol{h}_i))}{\sum_{i\'=1}^n \exp(\text{score}(\boldsymbol{s}_{t-1}, \boldsymbol{h}_{i\'}))}$$

（3）generate context vector function

$$\mathbf{c}_t = \sum_{i=1}^n \alpha_{t,i} \boldsymbol{h}_i$$

Content-base Attention $$\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \text{cosine}[\boldsymbol{s_t},\boldsymbol{h}_i]$$
Location-base $$\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \text{softmax}(\mathbf{W}_a \boldsymbol{s}_t)$$
General $$\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \boldsymbol{s}^T_t \mathbf{W}_a \boldsymbol{h}_i$$
Dot-Product Attention

注意力机制总结