ElasticSearch实战系列四: ElasticSearch理论知识介绍

日期：2021-05-06 栏目：程序人生浏览：次

在前几篇关于ElasticSearch的文章中，简单的讲了下有关ElasticSearch的一些使用，这篇文章讲一下有关 ElasticSearch的一些理论知识以及自己的一些见解。
虽然本人是一个实战派，不太喜欢讲这些理论知识，因为这块可以查看官方文档，那里会写得非常详细，但是在使用了ElasticSearch之后，发现有的知识点需要掌握一定的理论知识才能理解，对于初学者来说有的不好理解，因此写下该篇文章，希望读者在看完之后能够有所帮助。

ElasticSearch 理论知识介绍 ElasticSearch是什么

Elasticsearch 是一个基于JSON的分布式搜索和分析引擎。它可以从RESTful Web服务接口访问，并使用模式少JSON(JavaScript对象符号)文档来存储数据。它是基于Java编程语言，这使Elasticsearch能够在不同的平台上运行。使用户能够以非常快的速度来搜索非常大的数据量。

ElasticSearch可以做什么

分布式的实时文件存储，每个字段都被索引并可被搜索

分布式的实时分析搜索引擎

可以扩展到上百台服务器，处理PB级结构化或非结构化数据

Lucene是什么

ApacheLucene将写入索引的所有信息组织成一种倒排索引（Inverted Index）的结构之中，该结构是种将词项映射到文档的数据结构。其工作方式与传统的关系数据库不同，大致来说倒排索引是面向词项而不是面向文档的。且Lucene索引之中还存储了很多其他的信息，如词向量等等，每个Lucene都是由多个段构成的，每个段只会被创建一次但会被查询多次，段一旦创建就不会再被修改。多个段会在段合并的阶段合并在一起，何时合并由Lucene的内在机制决定，段合并后数量会变少，但是相应的段本身会变大。段合并的过程是非常消耗I/O的，且与之同时会有些不再使用的信息被清理掉。在Lucene中，将数据转化为倒排索引，将完整串转化为可用于搜索的词项的过程叫做分析。文本分析由分析器（Analyzer）来执行，分析其由分词器（Tokenizer），过滤器（Filter）和字符映射器（Character Mapper）组成，其各个功能显而易见。

Elk架构

“ELK”是三个开源项目的首字母缩写，这三个项目分别是：Elasticsearch、Logstash 和 Kibana。Elasticsearch 是一个搜索和分析引擎。Logstash 是服务器端数据处理管道，能够同时从多个来源采集数据，转换数据，然后将数据发送到诸如 Elasticsearch 等“存储库”中。Kibana 则可以让用户在 Elasticsearch 中使用图形和图表对数据进行可视化。

ElasticSearch名词 集群(cluster)

一个集群由一个或多个共享相同的群集名称的节点组成。每个群集有一个单独的主节点，这是由程序自动选择，如果当前主节点失败，程序会自动选择其他节点作为主节点。

节点(node)

一个节点属于一个集群。通常情况下一个服务器有一个节点，但有时候为了测试方便，一台服务器也可以有多个节点。在启动时，一个节点将使用广播来发现具有相同群集名称的现有群集，并将尝试加入该群集。节点属性根据elasticsearch.yml的一些配置来决定！其中master和datanode是必不可少的，其他的可以按照情况来进行添加！为了防止脑裂以及后续维护，建议将节点属性分离！

elasticsearch.yml配置:

node.master: true 并且 node.data: true
这种组合表示这个节点即有成为主节点的资格，又存储数据。
如果某个节点被选举成为了真正的主节点，那么他还要存储数据，这样对于这个节点的压力就比较大了。ElasticSearch默认每个节点都是这样的配置，在测试环境下这样做没问题。实际工作中建议不要这样设置，因为这样相当于主节点和数据节点的角色混合到一块了。

node.master: false 并且 node.data: true
这种组合表示这个节点没有成为主节点的资格，也就不参与选举，只会存储数据。这个节点我们称为data(数据)节点。在集群中需要单独设置几个这样的节点负责存储数据，后期提供存储和查询服务。

node.master: true 并且 node.data: false
这种组合表示这个节点不会存储数据，有成为主节点的资格，可以参与选举，有可能成为真正的主节点，这个节点我们称为master节点。

node.master: false node.data: false
这种组合表示这个节点即不会成为主节点，也不会存储数据，这个节点的意义是作为一个client(客户端)节点，主要是针对海量请求的时候可以进行负载均衡。

node.ingest: true
执行预处理管道，不负责数据和集群相关的事物。
它在索引之前预处理文档，拦截文档的bulk和index请求，然后加以转换。
将文档传回给bulk和index API，用户可以定义一个管道，指定一系列的预处理器。

示例图:

转载注明出处：https://www.heiqu.com/wssjgx.html

ElasticSearch实战系列四: ElasticSearch理论知识介绍

相关推荐