在互联网上,随处可见的搜索框。背后所用的技术大多数就是全文检索。
在全文检索领域,常见的库/组件有:Lucene、Solr、Sphinx、ElasticSearch等。
Lucene是一个基于Java开发的全文检索基础包,使用起来繁杂,且默认不支持分布式检索
Solr是基于Lucene开发的一个搜索工具。抽象度更高,使用更简单,且提供一个控制面板。
ElasticSearch也是基于Lucene开发的。同样是高度抽象,并提供了一个非常强大的DSL检索功能,可以很方便的检索出数据。
Solr和ES的区别主要在于:ES有强大的实时检索能力而不怎么掉速,Solr创建索引的同时,检索速度会下降。如果不考虑实时检索,Solr的速度更快。Solr社区更成熟。ES使用更方便更现代化。
Sphinx是俄罗斯人开发的一个全文检索引擎,使用C++开发。性能比Java开发的es和solr高,但是在社区繁荣度上,比ES和solr差很多。比如中文分词器,sphinx的coreseek插件已经停更了。sphinx有个非常好的地方就是可以作为MySQL插件使用。
环境搭建随着容器化的发展,我们大部分环境都切换到Docker上了。本篇博文的环境通过Docker搭建。
ES在Docker中搭建我使用的是ES7.4.2
docker run --name es -d -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" -e "ES_JAVA_OPTS=-Xms128m -Xmx128m" -v d:/elasticsearch/es7.4.2/data:/usr/share/elasticsearch/data -v d:/elasticsearch/es7.4.2/plugins:/usr/share/elasticsearch/plugins elasticsearch:7.4.2
我这里把Docker中的es数据目录和插件目录映射到本机,方便操作。实际线上部署也应该映射数据目录到宿主机,防止数据丢失。
搭建Kibana可视化环境docker run --name kibana -e ELASTICSEARCH_HOSTS=http://192.168.31.115:9200 -p 5601:5601 -e "I18N_LOCALE=zh-CN" -d kibana:7.4.2
运行成功后,在Docker控制面板上,就可以看到两个正在运行的容器了。
在本机浏览器访问 :5601/ 即可打开Kibana仪表盘。
用数据库的概念来对比ES的概念
数据库
ElasticSearch
database 库
index 索引
table 表
type 类型 7.x已经废除
row 行
document 文档
column 列
field 字段
chema 表结构
mapping 映射
SQL
DSL
select
GET
update
PUT
delete
delete
ES有两种方式操作:1.url方式,2.http请求中的body提交json dsl
创建一个索引PUT /qingcheng
删除一个索引DELETE /qingcheng
创建mappingPUT /qingcheng { "mappings": { "properties": { "name": { "type": "text" }, "age": { "type": "integer" }, "createtime": { "type": "date" } } } } 响应 { "acknowledged" : true, "shards_acknowledged" : true, "index" : "qingcheng" }
在ES7中已经不支持映射mapping的时候,指定_doc名称了。ES会给一个默认的_doc名称
新增字段PUT /qingcheng/_mapping { "properties":{ "sex":{ "type":"integer" } } }
在ES中只能新增字段,无法修改已有字段。如果需要需改已有字段,只能重新创建索引,然后使用reindex迁移数据到新的索引。
查看索引GET /qingcheng/_mapping 结果 { "qingcheng" : { "mappings" : { "properties" : { "age" : { "type" : "integer" }, "createtime" : { "type" : "date" }, "name" : { "type" : "text" }, "sex" : { "type" : "integer" } } } } }
插入以及数据多次put同一个id到es,那就是更新了
POST /qingcheng/_doc/1 { "name":"青城", "age":30, "createtime":"2021-03-21", "sex":1 }
使用Post请求,在_doc的type中插入id为1的一条数据。id可以自定义格式,可以为数字以及自定义字符串
查看数据GET /qingcheng/_doc/1
数据检索的格式为 GET /索引名称/_search + json格式的body
基本搜索GET /qingcheng/_search { "query": { "query_string": { "default_field": "name", "query": "青城" } } }
范围搜索
GET /qingcheng/_search { "query": { "range": { "age": { "gte": 10, "lte": 50 } } } }
分页搜索
GET /qingcheng/_search { "query": { "match": { "name": "青" } }, "from": 0, //从多少条开始 "size": 20 //取多少条 }
排序
GET /qingcheng/_search { "sort": [ { "age": { "order": "desc" } } ] }
复杂搜索