分布式搜索elasticsearch中文分词集成

elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:
安装ik插件:

plugin -install medcl/elasticsearch-analysis-ik/1.1.0  

下载ik相关配置词典文件到config目录

cd config   wget  --no-check-certificate   unzip ik.zip   rm ik.zip  

安装mmseg插件:

bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0  

下载相关配置词典文件到config目录

cd config   wget  --no-check-certificate   unzip mmseg.zip   rm mmseg.zip  

分词配置

ik分词配置,在elasticsearch.yml文件中加上

index:     analysis:                          analyzer:               ik:             alias: [ik_analyzer]             type: org.elasticsearch.index.analysis.IkAnalyzerProvider  

index.analysis.analyzer.ik.type : “ik”  

这两句的意义相同
mmseg分词配置,也是在在elasticsearch.yml文件中

index:     analysis:       analyzer:         mmseg:             alias: [news_analyzer, mmseg_analyzer]             type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider  

index.analysis.analyzer.default.type : "mmseg"  

mmseg分词还有些更加个性化的参数设置如下

index:     analysis:       tokenizer:         mmseg_maxword:             type: mmseg             seg_type: "max_word"         mmseg_complex:             type: mmseg             seg_type: "complex"         mmseg_simple:             type: mmseg             seg_type: "simple"  

这样配置完后插件安装完成,启动es就会加载插件。

定义mapping

在添加索引的mapping时就可以这样定义分词器

{      "page":{         "properties":{            "title":{               "type":"string",               "indexAnalyzer":"ik",               "searchAnalyzer":"ik"            },            "content":{               "type":"string",               "indexAnalyzer":"ik",               "searchAnalyzer":"ik"            }         }      }   }  

indexAnalyzer为索引时使用的分词器,searchAnalyzer为搜索时使用的分词器。

Java mapping代码如下:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/63e80bba37329e75a4911d7f66862054.html