[深度概念]·深度学习之Attention Model(注意力模型)学习笔记 (7)

Decoder层:采用了单向的RNN模型,第 ii 时刻的隐层的输出是 si 。第 i 时刻的输出和 si,yi−1,ci 有关    

[深度概念]·深度学习之Attention Model(注意力模型)学习笔记

    

[深度概念]·深度学习之Attention Model(注意力模型)学习笔记

因此引入Attention 机制,在机器翻译中,模型会自己去学得在不同时刻不同的权重系数 aij 。

 

现在我们对3中提出的问题做些总结:

1.每组权重如何合理化表示?利用softMax可以帮助我们权重之和为1

2.汇总权重信息时使用add还是concat(私以为add更加合适)?

3.如何表示权重?

4.如何优化权重?

 

解答:

1.通过使用softMax来归一化权重

2.由此公式

[深度概念]·深度学习之Attention Model(注意力模型)学习笔记

可以得出是通过add方法,更准确的说是sum

3.权重表示是使用

[深度概念]·深度学习之Attention Model(注意力模型)学习笔记

​此公式,eij是重点,hj 是Encoder层的隐层第 j 时刻的输出,si−1 是Decoder层第 i−1 时刻隐层的输出,a是一种变换方式可以把hj与si-1数据组合利用并获得一个标量这个标量表示了hj与si-1的关联度,从而进行softmax操作。a是如何变换的还需要继续往下看。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwfxpw.html