文件名称:一种确定最佳聚类数的新算法 (2012年)
文件大小:392KB
文件格式:PDF
更新时间:2024-07-02 04:50:50
自然科学 论文
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.