常见文本相似度计算法

日期：2021-05-09 栏目：程序人生浏览：次

　　在自然语言处理任务中，我们经常需要判断两篇文档是否相似、计算两篇文档的相似程度。比如，基于聚类算法发现微博热点话题时，我们需要度量各篇文本的内容相似度，然后让内容足够相似的微博聚成一个簇；在问答系统中，我们会准备一些经典问题和对应的答案，当用户的问题和经典问题很相似时，系统直接返回准备好的答案；在监控新闻稿件在互联网中的传播情况时，我们可以把所有和原创稿件相似的文章，都看作转发，进而刻画原创稿件的传播范围；在对语料进行预处理时，我们需要基于文本的相似度，把重复的文本给挑出来并删掉……总之，文本相似度是一种非常有用的工具，可以帮助我们解决很多问题。

1 文本相似度计算任务的简单分析

　　文本的相似性计算，是我们常说的“文本匹配任务”的一种特殊情况。

　　1.1 任务目标

　　一般来说，文本相似度计算任务的输入，是两篇文档，比如表1-1的前两个句子；输出是两篇文档的相似程度，通常用[0,1]区间内的小数来表示。作为一个懂人话的人类，我知道句子1和句子2的内容是一样的，并认为计算二者的相似性非常简单。

　　假如说，我们要判断1万对文档的相似性，或者在1秒内判断100对文档的相似度呢？那我就不行了，需要上机器。

　　大家在生活里和可能已经用到了文本相似度计算支持的东西。很多产品(APP,网站，导游机器人等等)配备了问答系统，允许用户用自然语言向系统发出各种请求。系统会理解用户的语言，然后返回一定形式的内容并展示在终端展里，作为对用户的回答。有些问题比较经典，大家经常问到。工程师或者领域专家会把这些问题和对应的答案收集并存储起来——当用户再次问到类似的问题时，直接返回现成的答案即可。“类似”与否的判断，需要使用文本相似度计算来支持。

　　那么，如何让机器替我们完成文本相似度的计算呢？

表1-1 我对机器人说的话

序号

问句

问题答案pairs

问句

答案

我想去厕所

厕所位置是哪里？

左手边直走30米。请看我的地图…

撒尿哪里走？

请问卫生间在哪里？

请问厕所在哪里？

饿死了，有啥建议啊？

附近的餐厅在哪里？

左手边直走31米。请看地图…

转载注明出处：https://www.heiqu.com/wspgsw.html

常见文本相似度计算法

相关推荐