Hadoop中NameNode存储的元数据记录和NameNode的启动过程

时间:2021-05-25 04:31:44

NameNode(NN代指)中存储的HDFS中文件的元信息,从大的方面可以分为3个部分整个文件系统的目录树、文件名与blockid的映射关系、blockid所在的DN信息。其中前两项是永久存在NN中的(image文件),第三项是DN启动时向NN汇报生成的,这样能够简化NN的存储逻辑,并且大大减小image文件的大小。

单纯看NN的存储逻辑会比较无序,不容易理解,借助NN的启动过程来进行分析。

NN的启动过程:

首先执行NN中的main函数

 

Hadoop中NameNode存储的元数据记录和NameNode的启动过程

main函数的主要工作是创建一个NN对象,并通过join方法等待其他线程运行结束。

createNameNode函数

Hadoop中NameNode存储的元数据记录和NameNode的启动过程

 首先获取startOpt,就是启动dfs时指定的参数(如-format),启动时会对format(hadoop一开始部署完成要进行一次格式化操作,类似磁盘的格式化)和finalize(升级稳定后正式提交)。

之后创建NN的对象。具体的初始化工作是在initialize方法中,进行一堆安全检查,然后创建FSNamesystem对象

this.namesystem = new FSNamesystem(this, conf);

之后创建RPCSever和HttpServer,具体实现可以查看Hadoop RPC部分的源代码。

Hadoop中NameNode存储的元数据记录和NameNode的启动过程

开始最重要的FSNamesystem的初始化,同样初始化工作是在initialize方法中完成。完成的最重要的几件事情,创建FSDirectory对象,加载image和edits文件,设置安全状态,之后启动几个monitor线程。分别监控DN的心跳、租约、block的冗余备份数目。

Hadoop中NameNode存储的元数据记录和NameNode的启动过程

可以看出FSNamesystem对于目录结构的操作都是通过FSDirectory对象进行的。在FSDirectory中有一个表示系统目录根的rootDir,rootDir是INodeDirectoryWithQuota类型,这就表明FSDirectory是作为Inode(类似Linux中的inode)与FSNamesystem之间的桥梁,FSDirectory封装了Inode提供了对外查询的接口。

Inode是一个抽象类,他有两个子类INodeDirectory和INodeFile。顾名思义,INodeFile代表的是一个具体的文件,而INodeDirectory代表的是一个文件目录。

接着看一下INodeDirectory与INodeFile之间的区别。在INodeFile中最重要的一个域是

protected BlockInfo blocks[] = null;      

这就是代表每个文件所对应的blockid。而在INodeDirectory中最重要的部分是

  private List<INode> children;    

这就是一个文件目录中的目录项的集合,也就是目录树。

上面我们知道了目录树和blockid的存储结构,接着来看在image文件和edits文件时候是否按照这样的结构进行组织。