定义

聚类分析（Cluster Analysis）又称群分析，是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样品，要求能合理地按各自的特性来进行合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行的。聚类分析起源于分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行定量的分类。

例题

为了研究世界各国森林、草原资源的分布规律，共抽取了21个国家的数据，每个国家3项指标，见下表1。请进行聚类分析。

表1数据表

国别	森林覆盖率（%）	林木蓄积量（亿立方米）	草原面积（万公顷）
中国	12.5	93.5	31908
美国	30.4	202.0	23754
日本	67.2	24.8	58
德国	28.4	14.0	599
英国	8.6	1.5	1147
法国	26.7	16.0	1288
意大利	21.1	3.6	514
加拿大	32.7	192.8	2385
澳大利亚	13.9	10.5	45190
前苏联	41.1	841.5	37370
捷克	35.8	8.9	168
波兰	27.8	11.4	405
匈牙利	17.4	2.5	129
南斯拉夫	36.3	11.4	640
罗马尼亚	26.7	11.3	447
保加利亚	34.7	2.5	200
印度	20.5	29.0	1200
印尼	84.0	33.7	1200
尼日利亚	16.1	0.8	2090
墨西哥	24.6	32.6	7450
巴西	67.6	238.0	15900

k均值聚类

[X,data] = xlsread(\'data5.xlsx\');
Xval = zscore(X);%数据标准化
val1 = pdist(Xval);% 距离
val2 = linkage(val1);% 变量之间的链接
val3 = cophenet(val2,val1);% 评价聚类
T=cluster(val2,4);% 创建聚类，4类
H=dendrogram(val2);% 制作谱系图

可以看到T值，整个已经被分成了4类