文件名称:聚类分析基本概念及常用算法-人脸识别图像预处理技术
文件大小:4.91MB
文件格式:PDF
更新时间:2024-06-29 11:23:53
数据挖掘算法 Python
12.1 聚类分析基本概念及常用算法 概念 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚 类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在 于,聚类所要求划分的类是未知的。 聚类度量方法 聚类之间类的度量是分距离和相似系数来度量的, 距离用来度量样品之间的相似性(KMeans 聚类,系统聚类中的 Q 型聚类) 相似系数用来度量变量之间的相似性(系统聚类的 R 型聚类) 聚类分析研究方法 层次的方法(hierarchical method) 划分方法(partitioning method) 基于密度的方法(density-based method)---DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 基于网格的方法(grid-based method) 基于模型的方法(model-based method) 常用聚类分析研究方法 K-pototypes 算法 K-Means 算法 CLARANS 算法(划分方法) BIRCH 算法(层次方法) CURE 算法(层次方法) DBSCAN 算法(基于密度的方法) CLIQUE 算法(综合了基于密度和基于网格的算法) 12.2 Kmeans 算法概述 1. Kmeans 算法描述 适用于大样本,但需要事先制定分为 K 个类; 从 n 个数据对象任意选择 k 个对象作为初始聚类中心,对于剩下的其他对象,则根据它们与这 些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;再计算 每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程,直到标准测度函数开 始收敛为止。K 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开 2. Kmeans 算法流程