关系抽取之远程监督算法 (6)

日期：2021-05-07 栏目：程序人生浏览：次

　　卷积完成后会得到（s+w-1）个数值，也就是长度为（s+w-1）的向量c。文本的卷积和图像的卷积不同，只能沿着句子的长度方向滑动，所以得到的是一个向量而不是矩阵。

　　为了得到更丰富的特征，使用了n个卷积核W={W1, W2, ... Wn}，第i个卷积核滑动一次得到的数值为：

关系抽取之远程监督算法

　　最终，卷积操作完成后会输出一个矩阵C：

关系抽取之远程监督算法

　　（3）分段最大池化

　　把每个卷积核得到的向量ci按两个实体划分为三部分{ci1, ci2, ..., ci3}，分段最大池化也就是分别取每个部分的最大值：

关系抽取之远程监督算法

　　那么对于每个卷积核得到的向量ci，我们都能得到一个3维的向量pi。为了便于下一步输入到softmax层，把n个卷积核经过池化后的向量pi拼接成一个向量p1:n，长度为3n。

　　最后用tanh激活函数进行非线性处理，得到最终的输出：

关系抽取之远程监督算法

　　（4）softmax多分类

　　把池化层得到的g输入到softmax层，计算属于每种关系的概率值。论文中使用了Dropout正则化，把池化层的输出g以r的概率随机丢弃，得到的softmax层的输出为：

关系抽取之远程监督算法

　　输出的向量是关系的概率分布，长度为关系的种类（n1）。概率值最大的关系就是句子中的实体对被预测的关系。

　　2、多实例学习的过程

　　我们知道一般神经网络模型的套路是，batch-size个句子经过神经网络的sotfmax层后，得到batch-size个概率分布，然后与关系标签的one-hot向量相比较，计算交叉熵损失，最后进行反向传播。因此上述PCNNs网络结构的处理流程仅是一次正向传播的过程。

　　PCNNs结合多实例学习的做法则有些差别，目标函数仍然是交叉熵损失函数，但是基于实体对级别（论文中的bags）去计算损失，而不是基于句子级别（论文中的instances）。这是什么意思呢？

关系抽取之远程监督算法

　　对照上面的图，计算交叉熵损失分为两步：

　　第一步，对于每个实体对，会有很多包含该实体对的句子（qi个），每个句子经过softmax层都可以得到一个概率分布，进而得到预测的关系标签和概率值。为了消除错误标注样本的影响，从这些句子中仅挑出一个概率值最大的句子和它的预测结果，作为这个实体对的预测结果，用于计算交叉熵损失。比如上面的例子中，挑出了第二个句子。公式为：

关系抽取之远程监督算法

　　第二步，如果一个batch-size有T个实体对，那么用第一步挑选出来的T个句子，计算交叉熵损失：

关系抽取之远程监督算法

　　最后用梯度下降法求出梯度，并进行误差反向传播。

　　如下是算法的伪代码，θ是PCNNs的参数，Eq.(9)是第一步中的公式。

转载注明出处：https://www.heiqu.com/wssxxj.html

关系抽取之远程监督算法 (6)

相关推荐