最近挺忙的,在外出差,又同时干两个项目。白天一个晚上一个,特别是白天做的项目,马上就要上线了,在客户这里 三天两头开会,问题很多真的很想好好静下来怼代码,半夜做梦都能fix bugs~ 和客户交流真的是门技术,一不小心你就会掉坑里,慢慢来吧~
站内搜素其实也是老生常谈,估计很多程序员门都做过或者接触过,记得大三那会 那是比较常见的解决方案就是lucene.net 和盘古分词,后来又用jieba分词,
首先就是和数据库同步,我们把数据扔给lucene.net ,lucene.net 拿到数据 进行分词,然后保存在索引库中,当用户搜索的时候,就从索引库中进行搜索。lucene.net 对中文分词不是太优化,所以常用的就是盘古分词 庖丁解牛 jieba分词,这种方式适合个人站点 数据量不是太大的情况下,目前很少有采用这种解决方案的,看官们感兴趣的可以百度了解一波,实现起来也不难。
前端时间elastc上市,市值50亿美金,刚开始我还吓一大跳~ 接触es是去年, 项目做日志统计使用exceptionless,所以也就初步了解了elasticsearch 也逐步了解logstash kibana 速度是真的快,吊打sqlserver啊! 哈哈 毕竟不是一系列的东西=
今天简单实现的站内搜索采用的就是 elasticsearch,数据源就是这段时间每天爬取博客园获取到的将近6000篇文章,放到sqlserver了,后续会共享
起初 想要搞sqlserver 和 es的数据同步,我写的这个服务每小时就会爬取博客园一次 获取最新50条数据,重复的就不算了。数据同步可以采用logstash,首先就是全量同步,再次就是增量同步,可能是因为版本原因吧,都是采用的最新版本,采用logstash进行数据同步 老是失败,有待探索,索性就用ef 先做个全量同步,再靠这个定时服务做以后的增量,数据本身就是经过去重处理的,况且也不存在修改 删除的情况
首先就是配置java环境变量 然后部署 elk 官网地址是 : https://www.elastic.co/cn/
下载好三件套之后 我们可以把es部署成windows服务 在bin目录下 运行elasticsearch-service.bat
服务开启后,es默认http地址是 :9200/
es启动成功后 启动kibana 服务 同样也是在bin目录下执行kibana.bat,kibana对es来说 真的是一个神器,
可以在上面操作dsl 做数据分析等待 默认地址是:5601
然后就是安装ik了,ik是中文分词插件,github地址是:https://github.com/medcl/elasticsearch-analysis-ik
从releases下载 我下载的最新版 6.4.2 下载后复制到es的plugins 目录下,解压就行了。然后去kibana检查是否安装成功,具体操作见github
ik分词策略有ik_max_word 和 ik_smart ik_max_word会将文本做最细粒度的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌」,会穷尽各种可能的组合;
ik_smart会将文本做最粗粒度的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、国歌」;
ik安装后之后 就是在kibana创建index 和mapping了
es和我们常用的sqlserver等关系型数据库对比如下:
DB:DataBases=>Tables=>Rows=>Columns
ES:Indices=>Types=>Documents=>Fields
创建Index在kibana Dev Tools 操作dsl
PUT /cnblogdb (注意 必须为小写)
POST /cnblogdb/articles/_mapping
{
"properties": {
"content": {
"type": "text",
"analyzer": "ik_smart",
"search_analyzer": "ik_smart"
},
"title":{
"type":"text",
"analyzer": "ik_smart",
"search_analyzer": "ik_smart"
},
"summary":{
"type":"text",
"analyzer": "ik_smart",
"search_analyzer": "ik_smart"
},
"author":{
"type":"text",
"analyzer": "ik_smart",
"search_analyzer": "ik_smart",
"fielddata": true,
"fields": {
"raw":{
"type":"keyword"
}
}
}
}
}