关系抽取之远程监督算法 (2)

日期：2021-05-07 栏目：程序人生浏览：次

　　半监督学习的算法主要有两种：Bootstrapping和Distant Supervision。Bootstrapping不需要标注好实体和关系的句子作为训练集，不用训练分类器；而Distant Supervision可以看做是Bootstrapping和Supervise Learning的结合，需要训练分类器。

　　这里介绍Bootstrapping的思想，Distant Supervision作为主人公，在后面的部分详细介绍。

　　1、例子

　　Bootstrapping算法的输入是拥有某种关系的少量实体对，作为种子，输出是更多拥有这种关系的实体对。敲黑板！不是找到更多的关系，而是发现拥有某种关系的更多新实体对。

　　怎么做的呢？举个栗子，“创始人”是一种关系，如果我们已经有了一个小型知识图谱，里面有3个表达这种关系的实体对：（严定贵，你我贷），（马云，阿里巴巴），（雷军，小米）。

　　第一步：在一个大型的语料集中去找包含某一实体对（3个中的任意1个）的句子，全部挑出来。比如：严定贵于2011年创立了你我贷；严定贵是你我贷的创始人；在严定贵董事长的带领下，嘉银金科赴美上市成功。

　　第二步：归纳实体对的前后或中间的词语，构造特征模板。比如：A 创立了 B；A 是 B 的创始人；A 的带领下，B。

　　第三步：用特征模板去语料集中寻找更多的实体对，然后给所有找到的实体对打分排序，高于阈值的实体对就加入到知识图谱中，扩展现有的实体对。

　　第四步：回到第一步，进行迭代，得到更多模板，发现更多拥有该关系的实体对。

关系抽取之远程监督算法

　　细心的小伙伴会发现，不是所有包含“严定贵”和“你我贷”的句子都表达了“创始人”这种关系啊，比如：“在严定贵董事长的带领下，嘉银金科赴美上市成功”——这句话就不是表达“创始人”这个关系的。某个实体对之间可能有很多种关系，哪能一口咬定就是知识图谱中已有的这种关系呢？这不是会得到错误的模板，然后在不断的迭代中放大错误吗？

　　没错，这个问题叫做语义漂移（Semantic Draft），一般有两种解决办法：

　　一是人工校验，在每一轮迭代中观察挑出来的句子，把不包含这种关系的句子剔除掉。

　　二是Bootstrapping算法本身有给新发现的模板和实体对打分，然后设定阈值，筛选出高质量的模板和实体对。具体的公式可以看《Speech and Language Processing》（第3版）第17章。

　　2、Bootstrapping的优缺点

　　Bootstrapping的缺点一是上面提到的语义漂移问题，二是查准率会不断降低而且查全率太低，因为这是一种迭代算法，每次迭代准确率都不可避免会降低，80%---->60%---->40%---->20%...。所以最后发现的新实体对，还需要人工校验。

　　（四）无监督

　　半监督的办法效果已经勉强，无监督的效果就更差强人意了，这里就不介绍了。

二、远程监督关系抽取算法的滥觞

　　第一篇要介绍的论文是《Distant supervision for relation extraction without labeled data》，斯坦福大学出品，把远程监督的方法用于关系抽取。研究关系抽取的远程监督算法，不得不提这篇论文。

　　（一）远程监督的思想

　　这篇论文首先回顾了关系抽取的监督学习、无监督学习和Bootstrapping算法的优缺点，进而结合监督学习和Bootstrapping的优点，提出了用远程监督做关系抽取的算法。

　　远程监督算法有一个非常重要的假设：对于一个已有的知识图谱（论文用的Freebase）中的一个三元组（由一对实体和一个关系构成），假设外部文档库（论文用的Wikipedia）中任何包含这对实体的句子，在一定程度上都反映了这种关系。基于这个假设，远程监督算法可以基于一个标注好的小型知识图谱，给外部文档库中的句子标注关系标签，相当于做了样本的自动标注，因此是一种半监督的算法。

转载注明出处：https://www.heiqu.com/wssxxj.html

关系抽取之远程监督算法 (2)

相关推荐