论文研究-数字标准平台中海量时空小文件合并策略研究.pdf

时间:2022-08-11 17:04:29
【文件属性】:

文件名称:论文研究-数字标准平台中海量时空小文件合并策略研究.pdf

文件大小:1.08MB

文件格式:PDF

更新时间:2022-08-11 17:04:29

数字标准平台,HDFS,小文件,时空数据,序列模式挖掘

针对HDFS处理时空小文件效率不高的问题,从用户的访问规律和访问数据自身属性这两者之间的相关性上出发,将用户访问流看成对数据文件的请求序列,然后根据数据的时空属性参数化表示,并利用特征提取构建一个新的特征序列,最后通过序列模式挖掘PrefixSpan算法找到用户在不同访问模式下的特征模板,合并相关文件。实验结果表明,该合并策略有效地降低了NameNode内存占用率和响应时间,提高了读取效率。


网友评论