zookeeper动态添加/删除集群中实例(zookeeper 3.6)

时间:2022-09-03 15:50:48

一,用来作为demo操作的zookeeper集群中的实例:

机器名:zk1
server.1=172.18.1.1:2888:3888 机器名:zk2
server.2=172.18.1.2:2888:3888 机器名:zk3
server.3=172.18.1.3:2888:3888

说明:刘宏缔的架构森林是一个专注架构的博客,地址:https://www.cnblogs.com/architectforest

对应的源码可以访问这里获取: https://github.com/liuhongdi/

说明:作者:刘宏缔 邮箱: 371125307@qq.com

二,在zookeeper集群中动态添加实例

1,我们的目标:添加两台实例:

机器名:zk4
server.4=172.18.1.4:2888:3888 机器名:zk5
server.5=172.18.1.5:2888:3888

2,在两台新机器上安装zookeeper,

使非集群相关的配置与之前的三台:zk1,zk2,zk3相一致

3,设置两个容器中zookeeper的cluster配置,使加入集群

修改zoo.cfg,集群的配置为:(新加的两台机器上相同)

[root@zk4 conf]# vi zoo.cfg 

集群配置的内容为:

#cluster
server.1=172.18.1.1:2888:3888
server.2=172.18.1.2:2888:3888
server.3=172.18.1.3:2888:3888
server.4=172.18.1.4:2888:3888
server.5=172.18.1.5:2888:3888

配置myid

[root@zk4 conf]# cd /data/zookeeper/data
[root@zk4 data]# vi myid

说明:

myid要区分开,

172.18.1.4上面,把myid设置为4

172.18.1.5上面,把myid设置为5

必须与zoo.cfg中的配置序号4、5保持一致

配置完成后,分别重启两个zookeeper服务:

zk4

[root@zk4 data]# systemctl stop zookeeper
[root@zk4 data]# systemctl start zookeeper

zk5

[root@zk5 data]# systemctl stop zookeeper
[root@zk5 data]# systemctl start zookeeper

4,查看效果

zk4

[root@zk4 data]# echo srvr | nc 127.0.0.1 2181
Zookeeper version: 3.6.0--b4c89dc7f6083829e18fae6e446907ae0b1f22d7, built on 02/25/2020 14:38 GMT
Latency min/avg/max: 0/0.0/0
Received: 1
Sent: 0
Connections: 1
Outstanding: 0
Zxid: 0x100000000
Mode: follower
Node count: 5

mode是follower,证明已加入集群

zk5:

[root@zk5 data]# echo srvr | nc 127.0.0.1 2181
Zookeeper version: 3.6.0--b4c89dc7f6083829e18fae6e446907ae0b1f22d7, built on 02/25/2020 14:38 GMT
Latency min/avg/max: 0/0.0/0
Received: 1
Sent: 0
Connections: 1
Outstanding: 0
Zxid: 0x100000000
Mode: follower
Node count: 5

两个实例的mode都是follower

5,集群中原有的三台机器的处理:

zk1,zk2,zk3

以zk1为例:

修改集群的配置,使与新加入的机器zk4\zk5的配置一致:

[root@zk1 conf]# vi zoo.cfg

内容:

#cluster
server.1=172.18.1.1:2888:3888
server.2=172.18.1.2:2888:3888
server.3=172.18.1.3:2888:3888
server.4=172.18.1.4:2888:3888
server.5=172.18.1.5:2888:3888

重启服务:

[root@zk1 conf]# systemctl stop zookeeper
[root@zk1 conf]# systemctl start zookeeper 

zk2/zk3上,依次进行相同的操作即可

说明:从leader实例上查询follower的数量:

[root@zk4 data]# echo mntr | nc 127.0.0.1 2181 | grep follower
zk_synced_followers 4

说明:有4个follower

这个数值是根据集群中的成员数量实时得到的,

如果有实例宕掉,此数量会改变

三,zookeeper集群中动态删除实例:

1,我们的目标:删除两台实例:

机器名:zk5
server.5=172.18.1.5:2888:3888 机器名:zk4
server.4=172.18.1.4:2888:3888

说明:这两台里面zk4是leader,zk5是follower

说明:如果不关闭zk5/zk4,直接修改zk1/zk2/zk3的配置后重启,会发生问题:

以zk1为例:重启后会因为集群中没有leader,而导致zk1无法访问.

2,操作步骤:

先关闭zk4和zk5

[root@zk4 conf]# systemctl stop zookeeper
[root@zk5 data]# systemctl stop zookeeper

说明:先关闭这两台,这样leader会自动从剩下的三台中选出,

可以避免因为没有leader导致集群无法访问的情况

再查看各个实例上的状态

zk1:follower
zk2:follower
zk3:leader

再给zk1,zk2,zk3修改配置重启

以zk1为例:

修改配置文件

[root@zk1 conf]# vi zoo.cfg

修改内容为:

#cluster
server.1=172.18.1.1:2888:3888
server.2=172.18.1.2:2888:3888
server.3=172.18.1.3:2888:3888
#server.4=172.18.1.4:2888:3888
#server.5=172.18.1.5:2888:3888

说明:注释掉了4和5

重启服务:

[root@zk1 conf]# systemctl stop zookeeper
[root@zk1 conf]# systemctl start zookeeper

查看状态:

[root@zk1 conf]# echo stat | nc 127.0.0.1 2181
Zookeeper version: 3.6.0--b4c89dc7f6083829e18fae6e446907ae0b1f22d7, built on 02/25/2020 14:38 GMT
Clients:
/127.0.0.1:53110[0](queued=0,recved=1,sent=0)
Latency min/avg/max: 0/0.0/0
Received: 2
Sent: 1
Connections: 1
Outstanding: 0
Zxid: 0x700000000
Mode: follower
Node count: 10

访问正常,mode还是follower

zk2/zk3上的操作与之相同

四,zookeeper cluster报错信息:

例:

[root@zk1 conf]# echo stat | nc 127.0.0.1 2181
This ZooKeeper instance is not currently serving requests

报错原因:集群里面没有选出来leader,

如果集群里的结点只剩下一台,或不足半数时,会给出这个错误提示

解决:

1,

检查各节点:如果有误关闭的或宕机的实例,重新启动,保证其正常工作

2,

检查防火墙,是否打开集群之间通信的2888/3888端口

如果这两个端口被关闭,打开它

五,查看zookeeper的版本

[root@zk1 ~]# echo stat|nc 127.0.0.1 2181
Zookeeper version: 3.6.0--b4c89dc7f6083829e18fae6e446907ae0b1f22d7, built on 02/25/2020 14:38 GMT