文件名称:改进的CK-means优化及并行策略
文件大小:1.38MB
文件格式:PDF
更新时间:2024-05-20 08:40:30
大数据 加速策略 内存计算
针对大数据背景下K-means存在选取质心导致的局部最优解、聚类速度慢的问题,提出一种Flink平台下的CK-means聚类优化及并行策略。从算法优化层面,采用Canopy算法确定聚类数目k并选取初始质心;从并行化加速层面,基于Flink平台设计了一种面向CK-means的并行加速策略,并分析不同并行度对计算耗时的影响。经实验,相较于K-means算法,CK-means算法的准确率与迭代次数间的比值更高,算法性能更优,在iris数据集中性能比提升44.79%,在wine数据集中性能比提升32.03%;同时证明了不同并行度下CK-means算法的聚类耗时呈现先下降后上升的趋势,其聚类耗时的最小值与数据集的大小相关。