定义
聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。
例题
为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家3项指标,见下表1。请进行聚类分析。
表1数据表
国别 |
森林覆盖率(%) |
林木蓄积量(亿立方米) |
草原面积(万公顷) |
中国 |
12.5 |
93.5 |
31908 |
美国 |
30.4 |
202.0 |
23754 |
日本 |
67.2 |
24.8 |
58 |
德国 |
28.4 |
14.0 |
599 |
英国 |
8.6 |
1.5 |
1147 |
法国 |
26.7 |
16.0 |
1288 |
意大利 |
21.1 |
3.6 |
514 |
加拿大 |
32.7 |
192.8 |
2385 |
澳大利亚 |
13.9 |
10.5 |
45190 |
前苏联 |
41.1 |
841.5 |
37370 |
捷克 |
35.8 |
8.9 |
168 |
波兰 |
27.8 |
11.4 |
405 |
匈牙利 |
17.4 |
2.5 |
129 |
南斯拉夫 |
36.3 |
11.4 |
640 |
罗马尼亚 |
26.7 |
11.3 |
447 |
保加利亚 |
34.7 |
2.5 |
200 |
印度 |
20.5 |
29.0 |
1200 |
印尼 |
84.0 |
33.7 |
1200 |
尼日利亚 |
16.1 |
0.8 |
2090 |
墨西哥 |
24.6 |
32.6 |
7450 |
巴西 |
67.6 |
238.0 |
15900 |
k均值聚类
[X,data] = xlsread(\'data5.xlsx\'); Xval = zscore(X);%数据标准化 val1 = pdist(Xval);% 距离 val2 = linkage(val1);% 变量之间的链接 val3 = cophenet(val2,val1);% 评价聚类 T=cluster(val2,4);% 创建聚类,4类 H=dendrogram(val2);% 制作谱系图
可以看到T值,整个已经被分成了4类
因此,分类为:
{10},{21},{3,18},{其他}
即:{前苏联},{巴西},{日本,印尼},{其他国家}
系统聚类
使用SPSS导入数据
使用系统聚类,首先对数据进行标准化处理(Z得分)之后,使用系统分类(勾选谱系图)可以得到
将系数提取出来,降序绘制成折线图
从图中我们可以看出,k=4开始,折线下降趋势变缓。因此,根据谱系图我们可以得到分类:
- 中国 澳大利亚 美国
- 日本 印尼 巴西
- 前苏联
- 德国,波兰等其他国家