一种基于Hadoop架构的并行挖掘算法研究

时间:2021-07-19 10:46:20
【文件属性】:

文件名称:一种基于Hadoop架构的并行挖掘算法研究

文件大小:1.59MB

文件格式:PDF

更新时间:2021-07-19 10:46:20

hadoop

基于Hadoop架构,提出一种并行的决策树挖掘算法实现大数据集间的知识挖掘。通过MapReduce并行编程模式实现Hadoop架构下SPRINT并行挖掘算法的频繁项集,解决了大数据集挖掘效率低下,时间消耗量大的问题。SPRINT算法通过对原始数据集进行划分,并将分块数据发给不同Map进程并行计算,使系统存储和计算资源得到有效利用,运用MapReduce各计算节点将挖掘结果数据汇聚,减少中间结果数据量,使并行挖掘时间显著减少。SPRINT算法并行化实验表明,Hadoop架构下的SPRINT并行挖掘算法具有良好的可扩展性和集群加速比。


网友评论