从0到1,了解NLP中的文本相似度 (6)

得到的结果如下:

srcFingerPrint: [1 1 1 0 1 0 0 1 1 1 0 1 0 0 0 0 1 0 1 1 1 0 1 0 1 0 1 1 0 0 1 0] dstFingerPrint: [1 0 1 0 0 0 1 1 0 1 1 0 1 0 0 1 0 0 0 1 1 0 1 1 1 1 1 1 0 0 1 0] --- PASS: TestSimHashSimilar (0.86s) similarity_test.go:53: SimHashSimilar distance: 12 PASS

也就是结果的汉明距离为12,远远大于我们预定的汉明距离3,这样的结果跟我们通过预先相似度计算出来的0.76分(相比于1分)相差很远,可见simhash对于短文本的相似度比较还是存在一些偏差的。

参考文献

https://lujiaying.github.io/posts/2018/01/Chinese-word-segmentation/

https://www.zhihu.com/question/19578687

此文已由腾讯云+社区在各渠道发布

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyxygj.html