[深度概念]·深度学习之Attention Model(注意力模型)学习笔记 (5)

    

[深度概念]·深度学习之Attention Model(注意力模型)学习笔记

此时的Encoder和Decoder都采用RNN模型,我们来看看现在的Encoder-Decoder模型结构:

    

[深度概念]·深度学习之Attention Model(注意力模型)学习笔记

用下图可以较为便捷地说明注意力分配概率分布值的通用计算过程:

    

[深度概念]·深度学习之Attention Model(注意力模型)学习笔记

对于采用RNN的Decoder来说,如果要生成yi单词,在时刻t = i,我们是可以知道在生成Yi之前的隐层节点t = i时刻的输出值Hi的,而我们的目的是要计算生成Yi时的输入句子单词“Tom”、“Chase”、“Jerry”对Yi来说的注意力分配概率分布,那么可以用t = i时刻的隐层节点状态Hi去一一和输入句子中每个单词对应的RNN隐层节点状态hj进行对比,即通过函数F(hj, Hi)来获得目标单词Yi和每个输入单词对应的对齐可能性,这个F函数在不同论文里可能会采取不同的方法,然后函数F的输出经过Softmax进行归一化就得到了符合概率分布取值区间的注意力分配概率分布数值。绝大多数AM模型都是采取上述的计算框架来计算注意力分配概率分布信息,区别只是在F的定义上可能有所不同。

上述中提出的解决方法是对于每一个Decoder输出都加权Encoder的信息,以Tom chase Jerry,Encoder-Decoder “汤姆”,“追逐”,“杰瑞”为例子,不计算起止符号,输出为3个单元,输入为3个单元。有时输入单元与输出数目会不一致,这里我们假设输入为X,m个,输出为Y,n个。对于每个yj都会综合所有x的信息共m个,同时m个X的信息权重之和为1(因为每个yj由X决定)。一共有n个y,所以有n组,n*m个权重要计算。

就会有这些问题:

1.每组权重如何合理化表示?利用softMax可以帮助我们权重之和为1

2.汇总权重信息时使用add还是concat(私以为add更加合适)?

3.如何表示权重?

4.如何优化权重?

我们继续往下看就会找到答案。。

 

4、论文中模型简述

论文中的模型结构图如下:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwfxpw.html