一周一个中间件-ES搜索引擎 (10)

日期：2021-05-04 栏目：程序人生浏览：次

8:-XX:+PrintGCDetails
8:-XX:+PrintGCDateStamps
8:-XX:+PrintTenuringDistribution
8:-XX:+PrintGCApplicationStoppedTime
8:-Xloggc:logs/gc.log
8:-XX:+UseGCLogFileRotation
8:-XX:NumberOfGCLogFiles=32
8:-XX:GCLogFileSize=64m

# JDK 9+ GC logging
9-:-Xlog:gc*,gc+age=trace,safepoint:file=logs/gc.log:utctime,pid,tags:filecount=32,filesize=64m
# due to internationalization enhancements in JDK 9 Elasticsearch need to set the provider to COMPAT otherwise
# time/date parsing will break in an incompatible way for some date patterns and locals
9-:-Djava.locale.providers=COMPAT

```
统一修改linux系统的es的内存权限。
elasticsearch用户拥有的内存权限太小，至少需要262144；

> 切换到root用户
执行命令：
sysctl -w vm.max_map_count=262144
查看结果：
sysctl -a|grep vm.max_map_count
显示：
vm.max_map_count = 262144

创建非root用户。
```
建立用户 useradd es
建立用户密码 passwd es
```
将es文件夹内的config文件和logs文件夹的文件权限赋予es.
chmod 777 config/*
chmod 777 logs/* 很多问题是因为es用户没有权限导致的。尽可能多的赋予es用户。

全部以es用户启动
> nohup ./elasticsearch > console.out &

如图集群节点建立完成

![Image text]()

如果head显示无法连接，但是es确正确启动(1)

## 索引数据

> es是一个分布式的文档(document)存储引擎，可以实时存储并检索出数据结构--序列化的JSON文档，通常，我们认为对象(object)和文档(documnet)是等价相同的。

```json
检索文档 GET /megacorp/employee/1
{
"_index" : "megacorp",
"_type" : "employee",
"_id" : "1",
"_version" : 1,
"found" : true,
"_source" : {
"first_name" : "John",
"last_name" : "Smith",
"age" : 25,
"about" : "I love to go rock climbing",
"interests": [ "sports", "music" ]
}
}
```

|名称 | 备注|
| -----: | :----: |
|_index|索引名称类似mysql数据库的表索引这个名字必须是全部小写，不能以下划线开头，不能包含逗号。|
|_type|索引对象类型类似每个对象都属于一个类class 可以是大写或小写，不能包含下划线或逗号|
|_id|索引主键它与 _index 和 _type 组合时，就可以在ELasticsearch中唯一标识一个文档|
|_version|索引数据版本|

ID
- 使用自己的ID
- ES可以自增ID

_version
每次修改数据都会version都会自增1.使用乐观锁来做数据安全。

数据如何存储到某个主分片

> shard = hash(routing) % number_of_primary_shards

routing是任意字符串，默认_id。通过hash生成一个数字。除以主分片数量取余，这个余数就是存储的分片。这就是为什么创建索引时主分片数量就确定了,一旦值改变之前的路由值就无效了，文档就找不到了。

所有的新建，索引，删除请求都是些操作，必须再主分片中操作成功才可以复制到复制分片。

1. 客户端给 Node 1 发送新建、索引或删除请求。

2. 节点使用文档的 _id 确定文档属于分片 0 。它转发请求到 Node 3 ，分片 0 位于这个节点上。

3. Node 3 在主分片上执行请求，如果成功，它转发请求到相应的位于 Node 1 和 Node 2的复制节点上。当所有的复制节点报告成功， Node 3 报告成功到请求的节点，请求的节点再报告给客户端。

这表明必须主分片和复制分片全部成功，客户端猜得到相应。
replication默认为sync。
你可以设置replication 为 async，这样es在主分片执行成功后就会相应客户端。但是es依旧会转发请求给复制节点。

默认主分片在尝试写入时需要规定数量quorum或过半的分片（可以是主节点或复制节点）可用。这是防止数据被写入到错的网络分区。
> int( (primary + number_of_replicas) / 2 ) + 1

consistency允许值 one，all,默认的quorum或过半分片.
number_of_replicas是在索引中的的设置，用来定义复制分片的数量.但如果你只有2个节点，那你的活动分片不够规定数量，也就不能索引或删除任何文档。

## 搜索

es搜索可以做

1. 在类似于 gender 或者 age 这样的字段上使用结构化查询， join_date 这样的字段上使用排序，就像SQL的结构化查询一
样。
2. 全文检索，可以使用所有字段来匹配关键字，然后按照关联性(relevance)排序返回结果。
3. 或者结合以上两条。

|概念|解释|
| -----: | :----:|
|映射(Mapping)|数据在每个字段中的解释说明|
|分析(Analysis)|全文是如何处理的可以被搜索的|
|领域特定语言查询(Query DSL)|Elasticsearch使用的灵活的、强大的查询语言|

转载注明出处：https://www.heiqu.com/wssyds.html

一周一个中间件-ES搜索引擎 (10)

相关推荐