Sphinx中文分词搜索Coreseek Windows下安装与基本使用

首先说明一下coreseek其实就是基于sphinx的中文分词版本,sphinx本身并没有提供中文分词功能,需要自行安装中文词库比较麻烦,coreseek提供了中文分词功能,提供了完整的官方中文使用文档,并且在使用上和官方的sphinx并没有差别。以coreseek-4.1版本为例

下载地址

帮助手册

下面开始coreseek的安装

安装过程很简单,下载coreseek-4.1-win32.zip,解压至某一个文件夹,这里假设放在d:\coreseek下,双击打开test.cmd进行测试,会出来一串命令行的提示信息,留意提示信息,如果没有提示错误就算安装完成

安装后,先别急着怎么使用,首先要配置好文档,解缩包中有测试文件这里测试也略,教程尽量简单点(其实是我懒。。)

配置文件的位置可以放在任何地方,不过建议就放在d:\coreseek\bin\的目录好了,d:\coreseek\etc\目录下提供了好多配置的参考,我们把csft_mysql.conf复制至d:\coreseek\bin\下,命名为sphinx.conf(可任意名称),打开它看到的内容大概是这样:

#源定义

source mysql

{

type                    = mysql

sql_host                = localhost

sql_user                = root

sql_pass                =

sql_db                    = test

sql_port                = 3306

sql_query_pre            = SET NAMES utf8

sql_query                = SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content FROM documents

#sql_query第一列id需为整数

#title、content作为字符串/文本字段,被全文索引

sql_attr_uint            = group_id          #从SQL读取到的值必须为整数

sql_attr_timestamp        = date_added #从SQL读取到的值必须为整数,作为时间属性

sql_query_info_pre      = SET NAMES utf8                                        #命令行查询时,设置正确的字符集

sql_query_info            = SELECT * FROM documents WHERE id=$id #命令行查询时,从数据库读取原始数据信息

}

#index定义

index mysql

{

source            = mysql            #对应的source名称

path            = var/data/mysql #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...

docinfo            = extern

mlock            = 0

morphology        = none

min_word_len        = 1

html_strip                = 0

#中文分词配置,详情请查看:

#charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置,/符号结尾

charset_dictpath = etc/                            #Windows环境下设置,/符号结尾,最好给出绝对路径,例如:C:/usr/local/coreseek/etc/...

charset_type        = zh_cn.utf-8

}

#全局index定义

indexer

{

mem_limit            = 128M

}

#searchd服务定义

searchd

{

listen                  =  9312

read_timeout        = 5

max_children        = 30

max_matches            = 1000

seamless_rotate        = 0

preopen_indexes        = 0

unlink_old            = 1

pid_file = var/log/searchd_mysql.pid  #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...

log = var/log/searchd_mysql.log        #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...

query_log = var/log/query_mysql.log #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...

binlog_path =                                #关闭binlog日志

}

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/bcdc333016c33d150c9879495f29e3b4.html