文件名称:SQL-DFS:一种基于HDFS的海量小文件存储系统.pdf
文件大小:2.58MB
文件格式:PDF
更新时间:2020-10-03 11:05:38
海量小文件 马志强 HDFS hadoop
针对 Hadoop 分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时 NameNode 内存占用率高的问题,通过分析 HDFS 基础架构,提出了基于元数据存储集群的 SQL-DFS 文件系统. 通过在 NameNode 中加 入小文件处理模块实现了小文件元数据由 NameNode 内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行化,减少了文件客户端对 NameNode 的请求次数;通过将部分 DataNode 文件块的校验工作交由元数据存储集群完成,进一步降低了 NameNode 节点的负载压力. 最终通过搭建 HDFS 和 SQL-DFS 实验平台,对 HDFS 和 SQL-DFS 2 种架构进行了小文件读写的对比测试,实验结果表明:SQL-DFS 在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原 HDFS 架构,具有更好的小文件存储能力,可用于海量小文件的存储.