文件名称:基于Hadoop处理小文件的优化策略 (2015年)
文件大小:467KB
文件格式:PDF
更新时间:2024-06-04 23:12:18
工程技术 论文
HDFS(Hadoop Distributed File System)作为开源系统广泛地适用于各类存储服务中,具有高容错,易扩展,廉价存储等特点。然而,HDFS 基于单一的服务器 NameNode 来处理元数据信息管理,当处理海量小文件时会造成NameNode内存过分消耗以及存储和读取性能并不理想,使NameNode成为系统瓶颈。本文提出一种基于HAR(HadoopArchive)的优化机制来提高NameNode存储元数据信息的内存利用效率和提高读取小文件的访问效率。另外,该策略也扩展了 HAR文件追加