得到的结果如下:
srcFingerPrint: [1 1 1 0 1 0 0 1 1 1 0 1 0 0 0 0 1 0 1 1 1 0 1 0 1 0 1 1 0 0 1 0] dstFingerPrint: [1 0 1 0 0 0 1 1 0 1 1 0 1 0 0 1 0 0 0 1 1 0 1 1 1 1 1 1 0 0 1 0] --- PASS: TestSimHashSimilar (0.86s) similarity_test.go:53: SimHashSimilar distance: 12 PASS也就是结果的汉明距离为12,远远大于我们预定的汉明距离3,这样的结果跟我们通过预先相似度计算出来的0.76分(相比于1分)相差很远,可见simhash对于短文本的相似度比较还是存在一些偏差的。
参考文献https://lujiaying.github.io/posts/2018/01/Chinese-word-segmentation/
https://www.zhihu.com/question/19578687
此文已由腾讯云+社区在各渠道发布