首先通过配置Active/Standby两个NameNode实现集群中对NameNode的热备(所谓热备就是当Active NameNode发生故障,Standby NameNode马上接手 Activy NameNode的工作)。要实现热备,需要满足以下条件:
(1)Active和Standby NameNode中保存的元数据信息必须时刻保持一致。
通过共享编辑日志文件实现两个NameNode中的元数据信息时刻保持一致,Active往编辑日志文件中写日志,Standby从编辑日志文件只嗯读取日志。由于编辑日志文件的重要性,所以必须有一种方式去保证编辑日志的可靠性,或者说是如何去判断编辑日志文件是写入成功了。
这里通过配置多个日志节点,通过Zookeeper对编辑日志文件进行管理,由于ZK管理的节点个数为奇数个(2n + 1),如果ZK监控到有n+1个节点日志是写入成功的,那就说明编辑日志文件写入成功。
(2)DateNode必须时刻向两个NameNode同时发送心跳报告。保证两个NameNode都能够时刻知道现在存活的DateNode节点。
(3)当Active NameNode发生故障,马上进行故障转移。
这里通过ZK对两个NameNode进行时刻监控,当发现Active发生故障时,马上进行故障转移使用Standby进行代替。
基于上面这种思想,所以必须配置一个客户端访问代理,由代理接收客户端的请求,将请求转发给存活的NameNode进行处理。
(4)配置两个NameNode之间的隔离性,同一时刻仅仅有一个NameNode对外提供服务。