层次聚类(Hierarchical Clustering)是聚类算法的一种,基于层次的聚类算法(Hierarchical Clustering)可以是凝聚的(Agglomerative)或者分裂的(Divisive),取决于层次的划分是“自底向上”还是“自顶向下”。
凝聚层次聚类原理是:最初将每个对象看成一个簇,然后将这些簇根据某种规则被一步步合并,就这样不断合并直到达到预设的簇类个数。这里的关键在于:如何计算聚类簇之间的距离?
计算聚类簇间距离的方法有三种,分别为Single Linkage,Complete Linkage和Average Linkage。在开始计算之前,我们先来介绍下这三种计算方法以及各自的优缺点。
- Single Linkage:方法是将两个组合数据点中距离最近的两个数据点间的距离作为这两个组合数据点的距离。这种方法容易受到极端值的影响。两个不相似的组合数据点可能由于其中的某个极端的数据点距离较近而组合在一起。
- Complete Linkage:Complete Linkage的计算方法与Single Linkage相反,将两个组合数据点中距离最远的两个数据点间的距离作为这两个组合数据点的距离。Complete Linkage的问题也与Single Linkage相反,两个不相似的组合数据点可能由于其中的极端值距离较远而无法组合在一起。
- Average Linkage:Average Linkage的计算方法是计算两个组合数据点中的每个数据点与其他所有数据点的距离。将所有距离的均值作为两个组合数据点间的距离。这种方法计算量比较大,但结果比前两种方法更合理。
sklearn.cluster.
AgglomerativeClustering
(n_clusters=2, affinity=’euclidean’, memory=None, connectivity=None, compute_full_tree=’auto’, linkage=’ward’, pooling_func=’deprecated’)
主要参数
n_clusters:聚类的个数
affinity:affinity=’euclidean’: string or callable,计算距离的方法,可以是 “euclidean”(即 “l2”,欧氏距离),“manhattan”(即 “l1”,曼哈顿距离,有利于稀疏特征或稀疏噪声,例如文本挖掘中使用稀有词的出现作为特征时,会出现许多 0), “cosine”(余弦距离), ‘precomputed’(预先计算的 affinity matrix),如果 linkage=“ward”,只能选择 “euclidean”,选择度量标准的方针是使得不同类样本之间距离最大化,并且最小化同类样本之间的距离;
memory=None: None, str or object with the joblib,如果给定一个地址,可以将层次聚类的树形图缓存到相应地址;
linkage:指定层次聚类判断相似度的方法,有以下三种:
ward:组间距离等于两类对象之间的最小距离。(即single-linkage聚类)
average:组间距离等于两组对象之间的平均距离。(average-linkage聚类)
complete:组间距离等于两组对象之间的最大距离。(complete-linkage聚类)
主要属性
labels_: 每个数据的分类标签
n_leaves_:分层树的叶节点数量
n_components:连接图中连通分量的估计值
children:一个数组,给出了每个非节点数量
from sklearn import datasets
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.cluster import AgglomerativeClustering
#导入数据集
iris = datasets.load_iris()
iris_data = iris.data
print(iris_data)
[[5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2]
[6.5 3. 5.2 2. ] [6.2 3.4 5.4 2.3] [5.9 3. 5.1 1.8]]
#数据预处理
data = np.array(iris_data[:50,1:-1])
min_max_scaler = preprocessing.MinMaxScaler()
data_M = min_max_scaler.fit_transform(data)
print(data_M)
[[0.57142857 0.44444444] [0.33333333 0.44444444] [0.42857143 0.33333333]
[0.42857143 0.44444444] [0.66666667 0.55555556] [0.47619048 0.44444444]]
from scipy.cluster.hierarchy import linkage, dendrogram
%matplotlib inline
#绘制树状图
plt.figure(figsize=(20,6))
Z = linkage(data_M, method='ward', metric='euclidean')
p = dendrogram(Z, 0)
plt.show()
#模型训练
ac = AgglomerativeClustering(n_clusters=3, affinity='euclidean', linkage='ward')
ac.fit(data_M)
AgglomerativeClustering(affinity='euclidean', compute_full_tree='auto', connectivity=None, linkage='ward', memory=None, n_clusters=3, pooling_func='deprecated')
#聚类
labels = ac.fit_predict(data_M)
print(labels)
[0 1 1 1 0 2 0 0 1 1 0 2 1 1 0 0 0 0 2 0 2 0 0 2 2 1 2 0 0 1 1 0 0 0 1 1 0 0 1 0 0 1 1 2 2 1 2 1 0 1]
#聚类结果可视化
plt.scatter(data_M[:,0], data_M[:,1], c=labels)
plt.show()