工作原理:
1.ZooKeeper是什么?
ZooKeeper是一种分布式、开源的分布式APP应用协调服务,是谷歌Chubby的开源实现。 作为群集的管理员,监视群集中每个节点的状态,并根据节点提供的反馈执行以下合理操作: 最终,它为用户提供了易于使用的界面和高效、功能稳定的系统
2.ZooKeeper提供什么?
1 )文件系统
2 )通知机制
3.Zookeeper文件系统
每个子目录项目(如NameService )都称为znode,与文件系统一样,可以自由添加和删除znode,也可以在一个znode下添加和删除子znode。 唯一的区别是,znode可以存储数据。
有四种类型的znode :
1、永久-持久化目录节点
即使客户端与zookeeper断开连接,节点仍然存在
2、PERSISTENT_SEQUENTIAL-持久化序列号目录节点
客户端与zookeeper断开连接后,节点仍然存在。 但是,zookeeper会为节点名称添加序列号
3、EPHEMERAL-临时目录节点
当客户端与zookeeper断开连接时,节点将被删除
4、EPHEMERAL_SEQUENTIAL-临时序号目录节点
如果客户端与zookeeper断开连接,则节点将被删除,zookeeper只需对节点名称进行序列号
ignore_js_op
4.Zookeeper通知机制
客户端注册并监听感兴趣的目录节点,并且如果目录节点发生更改(更改、删除数据或添加/删除子目录节点),zookeeper会通知客户端。
5.Zookeeper做了什么?
1 .命名服务2 .配置管理3 .群集管理4 .分布式锁定5 .队列管理
6.Zookeeper命名服务
在zookeeper文件系统中创建目录。 也就是说,有唯一的path。 如果我们不能使用tborg确定上游进程的部署机,我们可以约定下游进程和path,通过path互相搜索发现。
7.Zookeeper配置管理
程序必须始终配置,如果程序分散部署在多台计算机上,则很难逐个更改配置。 将所有这些配置放在zookeeper中,并将其保存到zookeeper的目录节点中。 然后,所有相关的APP应用程序都会接收此目录节点。 当配置信息发生更改时,每个APP应用程序都会收到zookeeper的通知,并从zookeeper获取新的配置信息并将其应用于系统
ignore_js_op
8.Zookeeper群集管理
集群管理不在乎机器退出和加入,是否有master的选举这两点。
首先,所有计算机都承诺在父目录的GroupMembers下创建临时目录节点,并接收父目录节点子节点的更改消息。 机器锁定时,该机器与zookeeper的连接断开,它创建的临时目录节点被删除,所有其他机器都收到“一个兄弟目录已被删除”的通知,知道所有人都上了船。
新机器的加入也类似。 所有的机器都收到了通知。 新的兄弟目录加入了,还有highcount。 关于第二点,让我们稍微改变一下。 所有机器都建立临时序号目录节点,每次选择序号最小的机器作为主控即可。
ignore_js_op
9.Zookeeper分布式锁定
有了zookeeper一致性文件系统,锁定问题就变得容易了。 锁定服务可以分为两类:维持垄断和控制时机。
第一个类别将zookeeper上的znode之一视为锁定,并通过createznode方法实现。 所有客户端都创建了/distribute_lock节点,最终成功创建的客户端也具有此锁定。 删除自己创建的distribute_lock节点后,解除锁定。
在第2类中,/distribute_lock已经存在,所有客户端在它下面创建临时序列号目录节点,选择master,同样,最小的获取锁定,用尽删除,然后选择
ignore_js_op
10.Zookeeper队列管理
两种类型的队列:
1、同步队列。 当一个队列的成员到齐时,该队列可用。 否则,等到所有成员都到了。
2、队列按照FIFO方式入队和出队操作。
第一,在规则目录下创建临时目录节点,并请求监听节点的数量。
第二,与分散锁定服务器中控制时序场景的基本原理一致,有编号,按编号记载。
11 .分布式和数据复制
Zookeeper作为群集提供一致的数据服务,当然是在所有计算机之间进行数据复制。 数据复制的好处:
1、容错)一个节点出错,整个系统不停机,其他节点可以接管其工作;
2、提高系统扩展能力:
把负载分布到多个节点上,或者增加节点来提高系统的负载能力;3、提高性能:让客户端本地访问就近的节点,提高用户访问速度。
从客户端读写访问的透明度来看,数据复制集群系统分下面两种:
1、写主(WriteMaster) :对数据的修改提交给指定的节点。读无此限制,可以读取任何一个节点。这种情况下客户端需要对读与写进行区别,俗称读写分离;
2、写任意(Write Any):对数据的修改可提交给任意的节点,跟读一样。这种情况下,客户端对集群节点的角色与变化透明。
对zookeeper来说,它采用的方式是写任意。通过增加机器,它的读吞吐能力和响应能力扩展性非常好,而写,随着机器的增多吞吐能力肯定下降(这也是它建立observer的原因),而响应能力则取决于具体实现方式,是延迟复制保持最终一致性,还是立即复制快速响应。
12.Zookeeper角色描述
<ignore_js_op>
13.Zookeeper与客户端
<ignore_js_op>
14.Zookeeper设计目的
1.最终一致性:client不论连接到哪个Server,展示给它都是同一个视图,这是zookeeper最重要的性能。
2.可靠性:具有简单、健壮、良好的性能,如果消息被到一台服务器接受,那么它将被所有的服务器接受。
3.实时性:Zookeeper保证客户端将在一个时间间隔范围内获得服务器的更新信息,或者服务器失效的信息。但由于网络延时等原因,Zookeeper不能保证两个客户端能同时得到刚更新的数据,如果需要最新数据,应该在读数据之前调用sync()接口。
4.等待无关(wait-free):慢的或者失效的client不得干预快速的client的请求,使得每个client都能有效的等待。
5.原子性:更新只能成功或者失败,没有中间状态。
6.顺序性:包括全局有序和偏序两种:全局有序是指如果在一台服务器上消息a在消息b前发布,则在所有Server上消息a都将在消息b前被发布;偏序是指如果一个消息b在消息a后被同一个发送者发布,a必将排在b前面。
15.Zookeeper工作原理
Zookeeper 的核心是原子广播,这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式,它们分别是恢复模式(选主)和广播模式(同步)。当服务启动或者在领导者崩溃后,Zab就进入了恢复模式,当领导者被选举出来,且大多数Server完成了和 leader的状态同步以后,恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。
为了保证事务的顺序一致性,zookeeper采用了递增的事务id号(zxid)来标识事务。所有的提议(proposal)都在被提出的时候加上了zxid。实现中zxid是一个64位的数字,它高32位是epoch用来标识leader关系是否改变,每次一个leader被选出来,它都会有一个新的epoch,标识当前属于那个leader的统治时期。低32位用于递增计数。
16.Zookeeper 下 Server工作状态
每个Server在工作过程中有三种状态:
LOOKING:当前Server不知道leader是谁,正在搜寻
LEADING:当前Server即为选举出来的leader
FOLLOWING:leader已经选举出来,当前Server与之同步
17.Zookeeper选主流程(basic paxos)
当leader崩溃或者leader失去大多数的follower,这时候zk进入恢复模式,恢复模式需要重新选举出一个新的leader,让所有的Server都恢复到一个正确的状态。Zk的选举算法有两种:一种是基于basic paxos实现的,另外一种是基于fast paxos算法实现的。系统默认的选举算法为fast paxos。
1.选举线程由当前Server发起选举的线程担任,其主要功能是对投票结果进行统计,并选出推荐的Server;
2.选举线程首先向所有Server发起一次询问(包括自己);
3.选举线程收到回复后,验证是否是自己发起的询问(验证zxid是否一致),然后获取对方的id(myid),并存储到当前询问对象列表中,最后获取对方提议的leader相关信息(id,zxid),并将这些信息存储到当次选举的投票记录表中;
4.收到所有Server回复以后,就计算出zxid最大的那个Server,并将这个Server相关信息设置成下一次要投票的Server;
5.线程将当前zxid最大的Server设置为当前Server要推荐的Leader,如果此时获胜的Server获得n/2 + 1的Server票数,设置当前推荐的leader为获胜的Server,将根据获胜的Server相关信息设置自己的状态,否则,继续这个过程,直到leader被选举出来。 通过流程分析我们可以得出:要使Leader获得多数Server的支持,则Server总数必须是奇数2n+1,且存活的Server的数目不得少于n+1. 每个Server启动后都会重复以上流程。在恢复模式下,如果是刚从崩溃状态恢复的或者刚启动的server还会从磁盘快照中恢复数据和会话信息,zk会记录事务日志并定期进行快照,方便在恢复时进行状态恢复。选主的具体流程图所示:
<ignore_js_op>
18.Zookeeper选主流程(fast paxos)
fast paxos流程是在选举过程中,某Server首先向所有Server提议自己要成为leader,当其它Server收到提议以后,解决epoch和 zxid的冲突,并接受对方的提议,然后向对方发送接受提议完成的消息,重复这个流程,最后一定能选举出Leader。
<ignore_js_op>
19.Zookeeper同步流程
选完Leader以后,zk就进入状态同步过程。
1. Leader等待server连接;
2 .Follower连接leader,将最大的zxid发送给leader;
3 .Leader根据follower的zxid确定同步点;
4 .完成同步后通知follower 已经成为uptodate状态;
5 .Follower收到uptodate消息后,又可以重新接受client的请求进行服务了。
<ignore_js_op>
20.Zookeeper工作流程-Leader
1 .恢复数据;
2 .维持与Learner的心跳,接收Learner请求并判断Learner的请求消息类型;
3 .Learner的消息类型主要有PING消息、REQUEST消息、ACK消息、REVALIDATE消息,根据不同的消息类型,进行不同的处理。
PING 消息是指Learner的心跳信息;
REQUEST消息是Follower发送的提议信息,包括写请求及同步请求;
ACK消息是 Follower的对提议的回复,超过半数的Follower通过,则commit该提议;
REVALIDATE消息是用来延长SESSION有效时间。
<ignore_js_op>
21.Zookeeper工作流程-Follower
Follower主要有四个功能:
1.向Leader发送请求(PING消息、REQUEST消息、ACK消息、REVALIDATE消息);
2.接收Leader消息并进行处理;
3.接收Client的请求,如果为写请求,发送给Leader进行投票;
4.返回Client结果。
Follower的消息循环处理如下几种来自Leader的消息:
1 .PING消息: 心跳消息;
2 .PROPOSAL消息:Leader发起的提案,要求Follower投票;
3 .COMMIT消息:服务器端最新一次提案的信息;
4 .UPTODATE消息:表明同步完成;
5 .REVALIDATE消息:根据Leader的REVALIDATE结果,关闭待revalidate的session还是允许其接受消息;
6 .SYNC消息:返回SYNC结果到客户端,这个消息最初由客户端发起,用来强制得到最新的更新。
核心机制
Zookeeper是可以集群复制的,集群间通过Zab(Zookeeper Atomic Broadcast)协议来保持数据的一致性。
该协议包括2个阶段:leader election阶段和Actomic broadcast阶段。集群中将选举出一个leader,其他的机器则称为follower,所有的写操作都被传送给leader,并通过broadcast将所有的更新告诉follower。当leader崩溃或者leader失去大多数的follower时,需要重新选举出一个新的leader,让所有的服务器都恢复到一个正确的状态。当leader被选举出来,且大多数服务器完成了和leader的状态同步后,leader election的过程就结束了,将进入Atomic broadcast的过程。Actomic broadcast同步leader和follower之间的信息,保证leader和follower具备相同的系统状态。
Zookeeper集群的结构图如下:
路由和负载均衡的实现
当服务越来越多,规模越来越大时,对应的机器数量也越来越庞大,单靠人工来管理和维护服务及地址的配置信息,已经越来越困难。并且,依赖单一的硬件负载均衡设备或者使用LVS、Nginx等软件方案进行路由和负载均衡调度,单点故障的问题也开始凸显,一旦服务路由或者负载均衡服务器宕机,依赖其的所有服务均将失效。如果采用双机高可用的部署方案,使用一台服务器“stand by”,能部分解决问题,但是鉴于负载均衡设备的昂贵成本,已难以全面推广。
一旦服务器与ZooKeeper集群断开连接,节点也就不存在了,通过注册相应的watcher,服务消费者能够第一时间获知服务提供者机器信息的变更。利用其znode的特点和watcher机制,将其作为动态注册和获取服务信息的配置中心,统一管理服务名称和其对应的服务器列表信息,我们能够近乎实时地感知到后端服务器的状态(上线、下线、宕机)。Zookeeper集群间通过Zab协议,服务配置信息能够保持一致,而Zookeeper本身容错特性和leader选举机制,能保证我们方便地进行扩容。
Zookeeper中,服务提供者在启动时,将其提供的服务名称、服务器地址、以节点的形式注册到服务配置中心,服务消费者通过服务配置中心来获得需要调用的服务名称节点下的机器列表节点。通过前面所介绍的负载均衡算法,选取其中一台服务器进行调用。当服务器宕机或者下线时,由于znode非持久的特性,相应的机器可以动态地从服务配置中心里面移除,并触发服务消费者的watcher。在这个过程中,服务消费者只有在第一次调用服务时需要查询服务配置中心,然后将查询到的服务信息缓存到本地,后面的调用直接使用本地缓存的服务地址列表信息,而不需要重新发起请求到服务配置中心去获取相应的服务地址列表,直到服务的地址列表有变更(机器上线或者下线),变更行为会触发服务消费者注册的相应的watcher进行服务地址的重新查询。这种无中心化的结构,使得服务消费者在服务信息没有变更时,几乎不依赖配置中心,解决了之前负载均衡设备所导致的单点故障的问题,并且大大降低了服务配置中心的压力。
通过Zookeeper来实现服务动态注册、机器上线与下线的动态感知,扩容方便,容错性好,且无中心化结构能够解决之前使用负载均衡设备所带来的单点故障问题。只有当配置信息更新时服务消费者才会去Zookeeper上获取最新的服务地址列表,其他时候使用本地缓存即可,这样服务消费者在服务信息没有变更时,几乎不依赖配置中心,能大大降低配置中心的压力。