IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的 IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。GitHub的地址是https://github.com/wks/ik-analyzer,Google的地址是https://code.google.com/archive/p/ik-analyzer/。 官方好久没更新了。
1. 下载ikanalyzer-solr6.5.zip 和pinyin.zip(,见本文下面,这里这两个文件已经配置好了);
2. 解压ikanalyzer-solr6.5.zip
把ext.dic、IKAnalyzer.cfg.xml和stopword.dic 复制到Tomcat \webapps\solr\WEB-INF\classes中,把ik-analyzer-solr5-5.x.jar 和 solr-analyzer-ik-5.1.0.jar 复制到Tomcat \webapps\solr\WEB-INF\lib中;
3. 打开webapps\solr\solrhome{{core_name}}\conf下的managed-schema文件,在</schema> 前加入配置:
这里说下useSmart,我试过,当设置为true时,分词粒度比较小,支取权重比较高的分词,当设置为false时,分词粒度比较小,能匹配多个词;
到这里,IKAnalyzer就算配置完毕,可以直接在后台调试分词了。
------------------------------------------分割线------------------------------------------
ikanalyzer-solr6.5.zip 和pinyin.zip可以到Linux公社1号FTP服务器下载
FTP地址:ftp://ftp1.linuxidc.com
用户名:ftp1.linuxidc.com
密码:
在 2017年LinuxIDC.com//12月/Solr 6.6.0 配置IKAnalyzer中文分词/
------------------------------------------分割线------------------------------------------
更多Solr相关教程见以下内容:
CentOS7下搭建Solr 6.6全文检索服务器及IK分词器配置