文件名称:一种Hadoop小文件存储和读取的方法.
文件大小:570KB
文件格式:PDF
更新时间:2016-02-14 02:49:46
hadoop
HDFS( Hadoop Distributed File System) 凭借其高容错、可伸缩和廉价存储的优点,在当前面向云计算的应用场景中得到了广泛应用。然而,HDFS 设计的初衷是存储超大文件,对于海量小文件,由于 NameNode 内存开销等问题,其存储和读取性能并不理想。提出一种基于小文件合并的方法 HIFM( Hierarchy Index File Merging) ,综合考虑小文件之间的相关性和数据的目录结构,来辅助将小文件合并成大文件,并生成分层索引。采用集中存储和分布式存储相结合的方式管理索引文件,并实现索引文件预加载。此外,HIFM 采用数据预取的机制,提高顺序访问小文件的效率。实验结果表明,HIFM 方法能够有效提高小文件存储和读取效率,显著降低 NameNode 和 DataNode 的内存开销,适合应用在有一定目录结构的海量小文件存储的应用场合。