基于Hadoop的分布式聚类算法研究

时间:2021-07-19 10:54:21
【文件属性】:

文件名称:基于Hadoop的分布式聚类算法研究

文件大小:449KB

文件格式:PDF

更新时间:2021-07-19 10:54:21

hadoop

基于工业领域广泛用到的Hadoop分布式计算平台,使用Canopy+K-means算法对手写数字进行聚类研究.针对传统Canopy算法初始阈值的确定问题,引入"最大最小化原则"确定初始阈值,计算得到K-means算法所需的初始聚类中心点.实验结果表明,Canopy算法能够较大程度地提高K-means算法的正确率.


网友评论