Decoder层:采用了单向的RNN模型,第 ii 时刻的隐层的输出是 si 。第 i 时刻的输出和 si,yi−1,ci 有关
因此引入Attention 机制,在机器翻译中,模型会自己去学得在不同时刻不同的权重系数 aij 。
现在我们对3中提出的问题做些总结:
1.每组权重如何合理化表示?利用softMax可以帮助我们权重之和为1
2.汇总权重信息时使用add还是concat(私以为add更加合适)?
3.如何表示权重?
4.如何优化权重?
解答:
1.通过使用softMax来归一化权重
2.由此公式可以得出是通过add方法,更准确的说是sum
3.权重表示是使用此公式,eij是重点,hj 是Encoder层的隐层第 j 时刻的输出,si−1 是Decoder层第 i−1 时刻隐层的输出,a是一种变换方式可以把hj与si-1数据组合利用并获得一个标量这个标量表示了hj与si-1的关联度,从而进行softmax操作。a是如何变换的还需要继续往下看。