首页 > 编程知识 正文

elasticsearch7,elasticsearch集群原理

时间:2023-05-04 17:06:54 阅读:23831 作者:4911

http://www.Sina.com/http://www.Sina.com /以下操作均在基础上自动完成:

1 )将您的文档分区为另一个容器或分片(shards )。 它们可以位于一个或多个节点上。

2 )将分片均匀分配给各个节点,在索引和检索中进行负载均衡。

3 )冗馀每个分片,防止硬件故障导致的数据丢失。

4 )将群集中任一节点上的请求路由到对应数据所在的节点。

5 )无论添加还是删除节点,瓦片都可以无缝迁移。

1、特点

扩展方法是:购买更好的服务器(纵向扩展)垂直缩放或横向扩展(购买更多服务器)水平缩放输出)。 Elasticsearch可以从更强大的硬件中获得更好的性能,但纵向扩展有限。 真正的扩展必须是横向的,通过增加节点来均匀分散负载,提高可靠性。

(1)Elasticsearch致力于隐藏分布式系统的复杂性

如果启动了另一个节点,则没有数据和索引。 这个集群看起来像图1

图1 :只有一个空节点的群集

节点(node )是Elasticsearch实例,群集)由一个或多个具有相同cluster.name的节点组成,它们协作共享数据和负载。 加入新节点或删除节点时,群集会识别并平衡数据。

选择群集中的一个节点作为主节点(master ),并临时管理群集级别的更改,例如创建或删除索引,以及添加或删除节点。 主节点不参与文档级别的更改或搜索。 这意味着当流量增加时,其主节点不会成为群集的瓶颈。 任何节点都可以是主节点。 因为我们示例中的群集只有一个节点,所以它用作主节点。

作为用户,您可以与群集中的任何节点(包括主节点)进行通信。 每个节点都知道文档所在的节点,并且可以将请求转发到相应的节点。 我们访问的节点收集每个节点返回的数据,最后一起返回给客户端。 这一切都由Elasticsearch处理。

(2)Elasticsearch用于构建高可用和可扩展的系统

Elasticsearch集群可以监测和统计很多信息,但只有一个最重要的是集群健康。 集群的健康有三种状态:绿色、黄色和红色。

在没有GET /_cluster/health//索引的空群集上执行上述查询时,将返回这些信息。 { ' cluster _ name ' : ' elastic search ',' status ' : ' green ' ' number _ of _ nodes ' : 1,' number _ of } ' active_primary_shards': 0,' acti viving ' initializing _ shards ' : 0,' unassigned _ shards ' : } stion 三种颜色的含义:

green的所有主要拼贴和复制拼贴都可用

可以使用yellow中的所有主要片,但不是所有复制片都可以使用

red并不是所有主要的瓷砖都可以使用

2、空集群

要将数据添加到Elasticsearch中,需要一个存储索引(index ) ——相关数据的位置。 实际上,索引只是指一个或多个切片的逻辑命名空间。

“平铺”(shard )是最低级别的“工作单位”(worker unit ),它只存储索引中所有数据的一部分。 如果你知道分片是Lucene实例,它本身就是完整的搜索引擎。 文档存储在拼贴中并在拼贴中建立索引,但APP应用程序直接与索引通信,而不是直接与它们通信。

瓷砖是Elasticsearch在群集中分发数据的关键。 把瓷砖当成数据的容器。3、集群健康

分片可以是“主分片”(primary shard )或“复制分片”(replica shard )。 因为索引中的每个文档都属于单独的主拼贴,所以主拼贴的数量决定了索引中可以存储的最大数据数。

理论上可以存储在主片上的数据大小没有限制,限制取决于实际使用情况。 最大分片容量取决于使用情况,例如硬件存储的大小、文档的大小和复杂性、文档索引和查询方法以及期望值

的响应时间。复制分片只是主分片的一个副本,它可以防止硬件故障导致的数据丢失,同时可以提供读请求,比如搜索或者从别的shard取回文档。

当索引创建完成的时候,主分片的数量就固定了,但是复制分片的数量可以随时调整。

让我们在集群中唯一一个空节点上创建一个叫做blogs的索引。默认情况下,一个索引被分配5个主分片,但是为了演示的目的,我们只分配3个主分片和一个复制分片(每个主分片都有一个复制分片):

PUT /blogs{ "settings" : { "number_of_shards" : 3, "number_of_replicas" : 1 }}

附带索引的单一节点集群: 有一个索引的单一节点集群

我们的集群现在看起来就像上图——三个主分片都被分配到Node1。如果我们现在检查集群健康(cluster-health),我们将见到以下信息:

{ "cluster_name": "elasticsearch", "status": "yellow", <1> "timed_out": false, "number_of_nodes": 1, "number_of_data_nodes": 1, "active_primary_shards": 3, "active_shards": 3, "relocating_shards": 0, "initializing_shards": 0, "unassigned_shards": 3 <2>}

集群的状态现在是 yellow
我们的三个复制分片还没有被分配到节点上,集群的健康状态yellow表示所有的主分片(primary shards)启动并且正常运行了——集群已经可以正常处理任何请求;但是复制分片(replica shards)还没有全部可用。事实上所有的三个复制分片现在都是unassigned状态——它们还未被分配给节点。在同一个节点上保存相同的数据副本是没有必要的,如果这个节点故障了,那所有的数据副本也会丢失。

现在我们的集群已经功能完备,但是依旧存在因硬件故障而导致数据丢失的风险。

5、增加故障转移
在单一节点上运行意味着有单点故障的风险——没有数据备份。幸运的是,要防止单点故障,我们唯一需要做的就是启动另一个节点。

启动第二个节点
为了测试在增加第二个节点后发生了什么,你可以使用与第一个节点相同的方式启动第二个节点),而且命令行在同一个目录——一个节点可以启动多个Elasticsearch实例。

只要第二个节点与第一个节点有相同的cluster.name(./config/elasticsearch.yml文件),它就能自动发现并加入第一个节点所在的集群。如果没有,检查日志找出哪里出了问题。这可能是网络广播被禁用,或者防火墙阻止了节点通信。如果我们启动了第二个节点,这个集群看起来就像下图。

双节点集群——所有的主分片和复制分片都已分配

第二个节点已经加入集群,三个复制分片(replica shards)也已经被分配了——分别对应三个主分片,这意味着在丢失任意一个节点的情况下依旧可以保证数据的完整性。

文档的索引将首先被存储在主分片中,然后并发复制到对应的复制节点上。这可以确保我们的数据在主节点和复制节点上都可以被检索。

cluster-health现在的状态是green,这意味着所有的6个分片(三个主分片和三个复制分片)都已可用:

{ "cluster_name": "elasticsearch", "status": "green", <1> "timed_out": false, "number_of_nodes": 2, "number_of_data_nodes": 2, "active_primary_shards": 3, "active_shards": 6, "relocating_shards": 0, "initializing_shards": 0, "unassigned_shards": 0}

集群的状态是green。我们的集群不仅是功能完备的,而且是高可用的。

6、横向扩展
随着应用需求的增长,我们该如何扩展?如果我们启动第三个节点,我们的集群会重新组织自己,如图:

包含3个节点的集群——分片已经被重新分配以平衡负载: 三节点集群

Node3包含了分别来自Node1和Node2的一个分片,这样每个节点就有两个分片,和之前相比少了一个,这意味着每个节点上的分片将获得更多的硬件资源(CPU、RAM、I/O)。

分片本身就是一个完整的搜索引擎,它可以使用单一节点的所有资源。我们拥有6个分片(3个主分片和三个复制分片),最多可以扩展到6个节点,每个节点上有一个分片,每个分片可以100%使用这个节点的资源。

7、继续扩展
如果我们要扩展到6个以上的节点,要怎么做?

主分片的数量在创建索引时已经确定。实际上,这个数量定义了能存储到索引里数据的最大数量(实际的数量取决于你的数据、硬件和应用场景)。然而,主分片或者复制分片都可以处理读请求——搜索或文档检索,所以数据的冗余越多,我们能处理的搜索吞吐量就越大。

复制分片的数量可以在运行中的集群中动态地变更,这允许我们可以根据需求扩大或者缩小规模。让我们把复制分片的数量从原来的1增加到2:

PUT /blogs/_settings{ "number_of_replicas" : 2}


增加number_of_replicas到2: 三节点两复制集群

从图中可以看出,blogs索引现在有9个分片:3个主分片和6个复制分片。这意味着我们能够扩展到9个节点,再次变成每个节点一个分片。这样使我们的搜索性能相比原始的三节点集群增加三倍。

当然,在同样数量的节点上增加更多的复制分片并不能提高性能,因为这样做的话平均每个分片的所占有的硬件资源就减少了(译者注:大部分请求都聚集到了分片少的节点,导致一个节点吞吐量太大,反而降低性能),你需要增加硬件来提高吞吐量。

不过这些额外的复制节点使我们有更多的冗余:通过以上对节点的设置,我们能够承受两个节点故障而不丢失数据。

8、应对故障
我们已经说过Elasticsearch可以应对节点失效,所以让我们继续尝试。如果我们杀掉第一个节点的进程(以下简称杀掉节点),我们的集群看起来就像这样:

杀掉一个节点后的集群

我们杀掉的节点是一个主节点。一个集群必须要有一个主节点才能使其功能正常,所以集群做的第一件事就是各节点选举了一个新的主节点:Node 2。

主分片1和2在我们杀掉Node 1时已经丢失,我们的索引在丢失主分片时不能正常工作。如果此时我们检查集群健康,我们将看到状态red:不是所有主节点都可用!

幸运的是丢失的两个主分片的完整拷贝存在于其他节点上,所以新主节点做的第一件事是把这些在Node 2和Node 3上的复制分片升级为主分片,这时集群健康回到yellow状态。这个提升是瞬间完成的,就好像按了一下开关。

为什么集群健康状态是yellow而不是green?我们有三个主分片,但是我们指定了每个主分片对应两个复制分片,当前却只有一个复制分片被分配,这就是集群状态无法达到green的原因,不过不用太担心这个:当我们杀掉Node 2,我们的程序依然可以在没有丢失数据的情况下继续运行,因为Node 3还有每个分片的拷贝。

如果我们重启Node 1,集群将能够重新分配丢失的复制分片,集群状况与上一节的 图5:增加number_of_replicas到2 类似。如果Node 1依旧有旧分片的拷贝,它将会尝试再利用它们,它只会从主分片上复制在故障期间有数据变更的那一部分。

现在你应该对分片如何使Elasticsearch可以水平扩展并保证数据安全有了一个清晰的认识。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。