文件名称:一种改进的BIRCH聚类算法
文件大小:311KB
文件格式:PDF
更新时间:2012-05-06 03:26:48
B I R C H算法;
B I R C H算法是一种适应于大规模数据集的聚类算法, 通过对所有叶节点设定统一阈值 来构建聚类特 征( c F ) 树, 并在各阶段采取不同的阈值来重建树, 但没有给出一个合理设定阈值初值 及如何在各阶段提升阈值大 小的具体方法。另外 B I R C H算法只能处理数值型数据, 这使其应用受到限制。针对以上不足, 对 B I R C H算法做 了以 下改进: 1 ) 改进原B I R C H算法的 C F结构, 使其可以处理混合型属性数据集; 2 ) 启发式为 B I R C H算法选择初始阈值 并给出了第二阶段提升阈值的具体操作方法; 3 ) 对 B I R C H算法参数 和 做了探讨 , 指出当参数 B =L时算法性 能相近, 并提出为获得较好聚类效果时口值的取值范围。实验结果表 明, 改进后的 B I R C H算法具有较好的性能。