论文研究-IABS:一个基于Spark的Apriori改进算法.pdf

时间:2022-08-11 15:23:02
【文件属性】:

文件名称:论文研究-IABS:一个基于Spark的Apriori改进算法.pdf

文件大小:1.14MB

文件格式:PDF

更新时间:2022-08-11 15:23:02

Apriori算法,频繁项集,存储结构转换,Spark,内存计算

Apriori算法是关联规则挖掘中最经典的算法之一,其核心问题是频繁项集的获取。针对经典Apriori算法存在的需多次遍历事务数据库及需产生候选项集等问题,首先通过转换存储结构、消除候选集产生过程等方法对Apriori算法进行优化;同时,随着大数据时代的到来,数据量与日俱增,传统算法面临巨大挑战,将优化的Apriori与Spark相结合,充分利用Spark的内存计算、弹性分布式数据集等优势,提出了IABS(improved Apriori algorithm based on Spark)。通过与已有的同类算法进行比较,IABS的数据可扩展性和节点可扩展性得以验证,并且在多种数据集上平均获得了23.88%的性能提升,尤其随着数据量的增长,性能提升更加明显。


网友评论