文件名称:论文研究-一种基于数据场的K-均值算法.pdf
文件大小:384KB
文件格式:PDF
更新时间:2022-08-11 14:45:47
K-均值,分子间相互作用力,数据场,文本聚类
针对K-均值算法在随机选取初始类中心时存在不足、对噪声和孤立点敏感、不适用于发现大小差别很大的类的问题,借鉴分子间的相互作用力模型,将文本模拟成数据场中的数据点,综合考虑文本间的相似度和相异度,提出一个新的数据势值计算公式。根据文本数据的势,剔除孤立点、确定初始类中心。实验结果证明,该算法可以提高收敛速度,消除噪声和孤立点对聚类结果的影响,提高聚类的精度,适用于主题分布不均匀的文本集。