Decoder层:采用了单向的RNN模型,第 ii 时刻的隐层的输出是 si 。第 i 时刻的输出和 si,yi−1,ci 有关
因此引入Attention 机制,在机器翻译中,模型会自己去学得在不同时刻不同的权重系数 aij 。
现在我们对3中提出的问题做些总结:
1.每组权重如何合理化表示?利用softMax可以帮助我们权重之和为1
2.汇总权重信息时使用add还是concat(私以为add更加合适)?
3.如何表示权重?
4.如何优化权重?
解答:
1.通过使用softMax来归一化权重
2.由此公式
3.权重表示是使用





