文件名称:提取精英成对约束进行聚类
文件大小:847KB
文件格式:PDF
更新时间:2024-05-21 02:31:29
Clustering; Criterion functions; Data mining
近年来,成对约束(即必须链接和不能链接)下的半监督集群一直是数据挖掘社区中的热门话题。 由于不同领域的专家提供的成对约束可能彼此冲突,因此进行了许多研究工作,以评估施加在半监督聚类上的噪声的影响。 在本文中,我们介绍了精英成对约束,包括精英必须链接(EML)和精英不能链接(ECL)约束。 与传统约束相反,在每个最佳分区(即具有最小标准函数的分区)中都需要同时满足EML和ECL约束。 因此,这些新约束不会引起冲突。 首先,我们证明获得EML或ECL约束是NP难的。 然后,提出了一种名为极限穿越的启发式方法,以实现这些新约束的一部分。 实际上,这种新方法始终可以检索很多EML或ECL约束。 为了评估极限穿越的有效性,本文还提出了基于多分区和基于距离的方法来生成人造精英成对约束。 已经使用称为COP-KMedoids的半监督聚类算法对UCI和合成数据集进行了广泛的实验。 实验结果表明,Limit Crossing生成的EML和ECL约束条件下的COP-KMedoids优于假约束或无约束条件下的COP-KMedoids。