SPSS聚类分析

时间:2024-02-20 11:15:32

定义

聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。

 

例题

为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家3项指标,见下表1。请进行聚类分析。

表1数据表

国别

森林覆盖率(%)

林木蓄积量(亿立方米)

草原面积(万公顷)

中国

12.5

93.5

31908

美国

30.4

202.0

23754

日本

67.2

24.8

58

德国

28.4

14.0

599

英国

8.6

1.5

1147

法国

26.7

16.0

1288

意大利

21.1

3.6

514

加拿大

32.7

192.8

2385

澳大利亚

13.9

10.5

45190

前苏联

41.1

841.5

37370

捷克

35.8

8.9

168

波兰

27.8

11.4

405

匈牙利

17.4

2.5

129

南斯拉夫

36.3

11.4

640

罗马尼亚

26.7

11.3

447

保加利亚

34.7

2.5

200

印度

20.5

29.0

1200

印尼

84.0

33.7

1200

尼日利亚

16.1

0.8

2090

墨西哥

24.6

32.6

7450

巴西

67.6

238.0

15900

 

 

k均值聚类

[X,data] = xlsread(\'data5.xlsx\');
Xval = zscore(X);%数据标准化
val1 = pdist(Xval);% 距离
val2 = linkage(val1);% 变量之间的链接
val3 = cophenet(val2,val1);% 评价聚类
T=cluster(val2,4);% 创建聚类,4类
H=dendrogram(val2);% 制作谱系图

可以看到T值,整个已经被分成了4类

因此,分类为:

{10},{21},{3,18},{其他}

即:{前苏联},{巴西},{日本,印尼},{其他国家}

 

系统聚类

使用SPSS导入数据

使用系统聚类,首先对数据进行标准化处理(Z得分)之后,使用系统分类(勾选谱系图)可以得到

将系数提取出来,降序绘制成折线图

从图中我们可以看出,k=4开始,折线下降趋势变缓。因此,根据谱系图我们可以得到分类:

  1. 中国 澳大利亚 美国
  2. 日本 印尼 巴西
  3. 前苏联
  4. 德国,波兰等其他国家