知识图谱基础知识之三——知识图谱的构建过程 (2)

日期：2022-06-22 栏目：程序人生浏览：次

知识融合，简单理解，就是将多个知识库中的知识进行整合，形成一个知识库的过程，在这个过程中，主要需要解决的问题就是实体对齐。不同的知识库，收集知识的侧重点不同，对于同一个实体，有知识库的可能侧重于其本身某个方面的描述，有的知识库可能侧重于描述实体与其它实体的关系，知识融合的目的就是将不同知识库对实体的描述进行整合，从而获得实体的完整描述。

比如，对于历史人物曹操的描述，在百度百科、互动百科、维基百科等不同的知识库中，描述有一些差别，曹操所属时代，百度百科为东汉，互动百科为东汉末年，维基百科为东汉末期；曹操的主要成就，百度百科为“实行屯田制，安抚流民消灭群雄，统一北方，奠定曹魏政权的基础，开创建安文学，提倡薄葬”，互动百科为“统一北方”，维基百科为“统一了东汉帝国核心地区”。

由此可以看出，不同的知识库对于同一个实体的描述，还是有一些差异，所属时代的描述差别在于年代的具体程度，主要成就的差别在于成就的范围不同，等等，通过知识融合，可以将不同知识库中的知识进行互补融合，形成全面、准确、完整的实体描述。知识融合过程中，主要涉及到的工作就是实体对齐，也包括关系对齐，属性对齐，可以通过相似度计算，聚合，聚类等技术来实现。

4 数据模型构建

上一篇文章，我们阐述过知识图谱的构建方法，提到知识图谱的数据整体上可以分为数据模型和具体数据，数据模型就是知识图谱的数据组织框架，不同的知识图谱，会采用不同的数据模型。对于行业知识图谱来说，行业术语、行业数据都相对比较清晰，可以采用自顶向下的方式来建设知识图谱，也就是先确定知识图谱的数据模型，然后，根据数据模型约定的框架，再补充数据，完成知识图谱的建设。数据模型的构建，一般都会找一个基础的参考模型，这个参考模型，可以参照行业的相关数据标准，整合标准中对数据的要求，慢慢形成一个基础的数据模型，再根据实际收集的数据情况，来完善数据模型。也可以从公共知识图谱数据模型中抽取，将与行业有关的数据模型从公共知识图谱数据模型中提取出来，然后结合行业知识进行完善。

5 知识推理

知识推理，就是根据已有的数据模型和数据，依据推理规则，获取新的知识或者结论，新的知识或结论应该是满足语义的。知识推理，依据描述逻辑系统实现。描述逻辑(Description Logic)是基于对象的知识表示的形式化，也叫概念表示语言或术语逻辑，是一阶谓词逻辑的一个可判定子集。

一个描述逻辑系统由四个基本部分组成：最基本的元素：概念、关系、个体；TBox术语集：概念术语的公理集合； Abox断言集：个体的断言集合；TBox 和 ABox上的推理机制。

描述逻辑涉及到的内容也比较多，此处举几个例子，比如实体的分类包含关系，一个电脑椅是椅子，椅子是家具，可以说，一个电脑椅是家具。常识规则的推理，一个男人的孩子是A，一个女人的孩子是A，可以知道，这个男人和女人是配偶。

通过推理发现新的知识，应用比较多，说明知识图谱的时候也经常不自觉的会应用推理，比如前两年比较受人关注的王宝强离婚案，为什么会聘用张起淮做律师，通过知识图谱可以很清楚知道，王宝强和冯小刚关系比较密切，冯小刚聘用张起淮作为律师顾问，所以王宝强很容易和张起淮建立关系，这也可以看作是知识推理的范畴。当然，更确切地说，应该是规则的范畴。推理更强调的是固有的逻辑，规则一般是和业务相关的自定义逻辑，但推理和规则都是通过逻辑准则，获取新的知识或发现，在这里先不做区分。

6 质量评估

质量评估，就是对最后的结果数据进行评估，将合格的数据放入知识图谱中。质量评估的方法，根据所构建的知识图谱的不同，对数据要求的差异而有所差别。总的目的是要获得合乎要求的知识图谱数据，要求的标准根据具体情况确定。比如对于公共领域的知识图谱，知识的获取采用了众包的方法，对于同一个知识点，可能会有很多人来完成，如果这个知识点只有一个答案，可以采用的一种策略是，将多人的标注结果进行比较，取投票多的结果作为最终的结果。当然，这是不严谨的，因为真理往往掌握在少数人的手里，特别是针对一些行业的知识图谱，表现尤为突出。行业内的一条知识，可能只有行业专家能够给出权威正确的答案，如果让大众投票来决定，可能会得到一条错误的知识。所以，针对行业知识图谱，可能会采用不同于公共知识图谱的策略，来进行知识的质量评估。

转载注明出处：https://www.heiqu.com/zzszxz.html

知识图谱基础知识之三——知识图谱的构建过程 (2)

相关推荐