本文是课程训练的报告,部分图片由于格式原因并没有贴出,有兴趣者阅读完整报告者输入以下链接
http://files.cnblogs.com/files/liugl7/基于SPSS的老年奥运会运动员数据分析.pdf
关于本文的第三部分中聚类分析的部分是不恰当的,然而为了课程报告的完整性,这里做了折衷。对于Split1~Split10的处理在问题讨论一节中的第一个问题中给出了一种处理方式。
---------------------------------------------------------------------------
专业技术综合实践I课程报告
摘要
描述性统计分析是对一组数据的包括平均数、标准差、正态或偏态程度等特征进行分析。例如在本报告数据中对年龄进行了统计描述,分析了其分布基本符合正态分布。 回归分析是任何数据分析都必要的,它试图定量描述一个自变量和一个因变量之间的关系。线性和曲线回归分析,可用于预测相关变量的结果或对相关变量进行分类。在本项目中,通过回归模型分析了预选赛成绩与全国赛成绩的关系。在对全国赛成绩的影响因素的研究中,有预选赛成绩、年龄、性别、年度等因素考虑。然而在这个项目中,我们只研究了预赛成绩这一重要因素。通过回归模型,可以指导教练员科学制定训练计划。 聚类分析指将物理或抽象对象的集合分组为类似的对象组成的多个类的分析过程。本报告通过对各个运动员Split1~split10的聚类分析,了解了不同运动员之间的成绩差别,可以用于指导运动员科学训练。
1 项目介绍
1.1 美国老年运动会
美国老年人运动会由美国老年人运动委员会主办。这是世界上最大的50岁以上的老年人综合性运动会,每次运动会都会有万余名来自全美各地的老人在15天的时间里参与近800个项目的较量。
参赛的老年选手都是在各自的州有好的比赛成绩,才能赢得参与全美老年人运动会的资格。
全美老年人运动会委员会成立于1985年,是美国奥林匹克委员会下属机构。该组织成立的宗旨是通过教育、健身和运动,倡导健康的老年人生活方式。1987年,首届全美老年人运动会举行,但当时这一比赛的名称为全美老年人奥林匹克运动会。
1.2研究益处
本次研究数据来源于参加美国老年人奥运会的运动员的训练数据。使用SPSS对这些数据进行统计分析,能够为老年运动员提供更加精准的 运动指标描述, 为老年运动员提供更加科学的训练指导。 此外还能找出运动员们不同阶段训练时间的相关性,从而对运动员的每一阶段的训练作出预测与指导,从而达到更好的训练效果。
2 数据来源
在这个项目中的2009年的数据由www.fastlanetek.com 提供, 2011年与2013年的数据由www.hy-teklt.com (Hy-Tek Sports
Software公司) 提供。
数据包括了参加美国老年运动会的年龄介于50~94岁之间的运动员的500米*泳游泳数据。该数据共包括三年(2009,2011,2013)中565人次的数据,涉及20个变量。 具体变量有year、gender、age、age group、time、seed 、split -x等。
其中统计表中数字的意义如下:
Place : 当年在年龄组内的最后成绩排名。
Gender : 运动员性别
,0=男人,1=女人
Age : 运动员年龄
AgeGrp : 年龄组别(1=50~54,2=55~59,…,9=90~94)
Year : 参赛年份(2009,2011,2013)
Seed : 预选赛成绩
Time : 全国赛成绩
Diff : seed和time之间的差距
Split : 每50码的运动时间 (split-1,split-2,split3,split4,…,split-10)
通过分析seed和time之间的关系,可以找出预选赛成绩与全国赛成绩之间的关联性,从而能够更加科学的指导选拔出有更大机会获得好成绩的运动员参加全国赛。 通过对split -x的分析,能够掌握不同阶段运动员的运动速度变化规律,结合最后成绩,判定运动员采取哪种体能分配方式能够获得更好成绩,从而指导运动员的竞赛策略的选择。
3 工作及结果
3.1数据预处理
数据预处理包括的内容很广泛,包括数据清理和描述性数据汇总,数据集成,数据归约,数据离散化等。本次报告主要涉及的预处理只包括数据清理和描述性数据汇总。一般意义的数据预处理包括缺失值填写和噪声数据的处理。于此我们只对数据做缺失值填充,但是依然将其统称为数据清理。
3.1.1数据导入与定义
单击“打开数据文档”,将txt格式的SeniorSwimTimes-DataSet的数据导入SPSS中,如图3.1-1所示。
图3.1-1 导入数据
导入过程中,seed字段的值被转化为字符串型(String),我们需要将其转回数值型。点击左下角的变量视图--à在“类型”处,将seed更改为数值型,宽度为7,小数位为2. 如图3.1-2。
图3.1-2定义变量数据类型
3.1.2数据清理
数据清理包括缺失值的填写和还需要使用SPSS分析工具来检查各个变量的数据完整性。单击“分析”à“缺失值分析”,将检查所输入的数据的缺失值个数以及百分比等。如图3.1-3所示:
图3.1-3缺失值分析
运动数据缺失值分析结果如表3.1-1所示。
单变量统计 |
|||||||
N |
均值 |
标准差 |
缺失 |
极值数目a |
|||
计数 |
百分比 |
低 |
高 |
||||
Place |
565 |
7.76 |
5.250 |
3 |
.5 |
0 |
2 |
Gender |
565 |
.56 |
.497 |
3 |
.5 |
0 |
0 |
Age |
565 |
67.22 |
9.568 |
3 |
.5 |
0 |
0 |
Age2 |
565 |
4609.38 |
1318.915 |
3 |
.5 |
0 |
2 |
AgeGrp |
565 |
4.08 |
1.934 |
3 |
.5 |
0 |
27 |
Year |
565 |
2010.92 |
1.631 |
3 |
.5 |
0 |
0 |
Seed |
560 |
575.3168 |
175.17983 |
8 |
1.4 |
0 |
22 |
Time |
565 |
563.4762 |
169.22340 |
3 |
.5 |
0 |
22 |
Split1 |
565 |
48.4984 |
14.44206 |
3 |
.5 |
0 |
29 |
Split2 |
564 |
54.6525 |
16.64894 |
4 |
.7 |
0 |
24 |
Split3 |
562 |
56.9689 |
17.80556 |
6 |
1.1 |
0 |
16 |
Split4 |
561 |
57.5503 |
17.13209 |
7 |
1.2 |
0 |
18 |
Split5 |
557 |
57.6936 |
17.26988 |
11 |
1.9 |
0 |
20 |
Split6 |
557 |
57.7676 |
17.21154 |
11 |
1.9 |
0 |
17 |
Split7 |
561 |
58.0067 |
17.45534 |
7 |
1.2 |
0 |
18 |
Split8 |
560 |
58.0246 |
17.50781 |
8 |
1.4 |
0 |
20 |
Split9 |
560 |
57.6419 |
17.34269 |
8 |
1.4 |
0 |
19 |
Split10 |
562 |
54.6365 |
16.47654 |
6 |
1.1 |
0 |
21 |
a. 超出范围(Q1 - 1.5*IQR,Q3 + 表3.1-1缺失值分析 |
SPSS提供了填充缺失值的工具,点击菜单栏“转换”à“替换缺失值”,即可使用软件提供的几种填充缺失值工具,包括序列均值,临近点均值,临近点中值等。结合本次报告数据的具体情况,我们不使用SPSS软件提供的替换缺失值工具,主要是手动将缺失值用零值来代替。
3.1.3 描述性分析
描述性数据汇总技术用来获得数据的典型性质,我们关心数据的中心趋势和离中趋势,根据这些统计值,可以初步得到数据的噪声和离群点。中心趋势的量度值包括:均值,中位数,众数等。离中趋势量度包括四分位数,方差等。
SPSS提供了详尽的数据描述工具,菜单栏的“分析”à“描述统计”à“描述”,将弹出如图3.1-4所示的对话框,我们将数值型变量选取到,然后在选项中所希望描述的数据特征,包括均值,标准差,方差,最大最小值等。由于本次数据的单位不尽相同,我们需要将数据标准化,同时勾选上“将标准化得分另存为变量”。
SPSS提供了详尽的数据描述工具,菜单栏的“分析”à“描述统计”à“描述”,将弹出如图3.1-4所示的对话框,我们将数值型变量选取到,然后在选项中所希望描述的数据特征,包括均值,标准差,方差,最大最小值等.
图3.1-4描述性数据汇总
得到如表3.1-2所示的描述性数据汇总。
描述统计量 |
|||||||
N |
极小值 |
极大值 |
和 |
均值 |
标准差 |
方差 |
|
Age |
565 |
50 |
94 |
37977 |
67.22 |
9.568 |
91.556 |
Seed |
560 |
321.78 |
1463.41 |
322177.41 |
575.3168 |
175.17983 |
30687.971 |
Time |
565 |
301.88 |
1231.38 |
318364.05 |
563.4762 |
169.22340 |
28636.560 |
Split1 |
565 |
28.75 |
110.88 |
27401.62 |
48.4984 |
14.44206 |
208.573 |
Split2 |
564 |
30.75 |
125.98 |
30824.00 |
54.6525 |
16.64894 |
277.187 |
Split3 |
562 |
31.19 |
179.97 |
32016.51 |
56.9689 |
17.80556 |
317.038 |
Split4 |
561 |
30.97 |
126.14 |
32285.73 |
57.5503 |
17.13209 |
293.508 |
Split5 |
557 |
30.78 |
127.74 |
32135.33 |
57.6936 |
17.26988 |
298.249 |
Split6 |
557 |
30.44 |
130.60 |
32176.54 |
57.7676 |
17.21154 |
296.237 |
Split7 |
561 |
29.90 |
131.98 |
32541.74 |
58.0067 |
17.45534 |
304.689 |
Split8 |
560 |
29.79 |
135.47 |
32493.76 |
58.0246 |
17.50781 |
306.523 |
Split9 |
560 |
30.05 |
138.19 |
32279.44 |
57.6419 |
17.34269 |
300.769 |
Split10 |
562 |
29.11 |
116.95 |
30705.71 |
54.6365 |
16.47654 |
271.476 |
有效的 N (列表状态) |
552 |
表3.1-2描述性数据汇总
标准化后得到的数据值,以下的回归分析将使用标准化数据。如图3.1-5所示:
图3.1-5数据标准化
我们还可以通过描述性分析中的“频率”来得到各个变量的众数,均值等,还可以根据这些量绘制直方图。我们选取个别变量(age)的直方图,可以看到我们因变量基本符合正态分布。如图3.1-6所示:
图3.1-6 age
下面用p-p图进行进一步的检验age的分布情况。P-p图能够检验数据分布情况,在菜单栏中的“分析”à“描述统计”à“p-p图”,将弹出如图3.1-7所示的对话框,我们选择检验分布为“正态”。
图3.1-7 age正态分布检验
对age年龄执行P-P检验,分析结果如图3.1-8和图3.1-9:
图3.1-8 age的正态p-p图
图3.1-9 age的趋势正态p-p图
age年龄在正态p-p图的散点分布近似成一条直线,趋势正态p-p图的散点均匀分布在直线y=0的上下,呈离散分布,故可以认为该数据age服从正态分布。
3.2 回归分析
关于seed与time的相关关系,我们将采取回归分析的方法,定量测定二者的关系。在进行回归分析之前,首先对自变量seed和因变量time进行散点图的描述和相关系数分析。
3.2.1散点图和相关系数
第一步:通过下面的图说明的过程,建立二者相关的散点图:
单击菜单栏的“图形”à“图表构建程序”,得到如图3.2-1的对话框。
图3.2-1图表构建程序
图3.2-2散点图
散点图表明,预选赛成绩seed与全国赛成绩time在统计到的运动中呈正相关关系。
第二步:检查预选赛成绩seed与全国赛成绩time之间的相关性。
单击菜单栏中“分析”à“相关”à“双变量”,得到如图3.2-3对话框:
图3.2-3相关性分析
图3.2-4 相关性分析结果
图3.2-4中表明seed、time的pearson相关系数是0.961,这是一个很强的正相关关系。
显著性水平为0表明,seed与time无相关关系的可能性几乎接近于零,从而说明二者有相关关系。
3.2.2曲线拟合
曲线拟合是指选择适当的曲线来拟合观测数据,并用拟合的曲线方程分析两变量间的关系。
3.2.2.1线性回归
第三步:对seed和time之间的关系进行线性回归分析。
单击菜单栏中“分析”à“回归”à“曲线估计”,得到如图3.2-5的对话框:
图3.2-5 建立回归模型
模型描述 |
||
模型名称 |
MOD_2 |
|
因变量 |
1 |
Time |
方程 |
1 |
线性 |
2 |
对数 |
|
3 |
三次 |
|
4 |
幂a |
|
自变量 |
Seed |
|
常数 |
包含 |
|
其值在图中标记为观测值的变量 |
未指定 |
|
用于在方程中输入项的容差 |
.0001 |
|
a. 该模型要求所有非缺失值为正数。 表3.2-1回归模型的详细信息 |
个案处理摘要 |
|
N |
|
个案总数 |
568 |
已排除的个案a |
8 |
已预测的个案 |
0 |
新创建的个案 |
0 |
a. 从分析中排除任何变量中带有缺失值的个案。 表3.2-2个案处理摘要 |
变量处理摘要 |
|||
变量 |
|||
因变量 |
自变量 |
||
Time |
Seed |
||
正值数 |
565 |
560 |
|
零的个数 |
0 |
0 |
|
负值数 |
0 |
0 |
|
缺失值数 |
用户自定义缺失 |
0 |
0 |
系统缺失 |
3 |
8 |
表3.2-3变量处理摘要
模型汇总 |
|||
R |
R 方 |
调整 R 方 |
估计值的标准误 |
.961 |
.924 |
.924 |
46.571 |
自变量为 Seed。 表3.2-4线性回归模型汇总 |
R称为多元相关系数,R方(R2)代表着模型的拟合优度。
表3.2-4中R方是0.924,这说明线性回归模型的鲁棒性和
seed可以解释time 92.4%的变异性。
ANOVA |
|||||
平方和 |
df |
均方 |
F |
Sig. |
|
回归 |
14794521.175 |
1 |
14794521.175 |
6821.443 |
.000 |
残差 |
1210204.819 |
558 |
2168.826 |
||
总计 |
16004725.994 |
559 |
|||
自变量为 Seed。 表3.2-5线性回归的离散分析 |
,F的值较大,代表着该回归模型是显著。也称为失拟性检验。
表3.2-5中F值的显著性概率(Sig.)为0.000,小于5%,所以拒绝原假设,即认为回归系数不为0,回归方程是有意义的。
系数 |
|||||
未标准化系数 |
标准化系数 |
t |
Sig. |
||
B |
标准误 |
Beta |
|||
Seed |
.929 |
.011 |
.961 |
82.592 |
.000 |
(常数) |
28.769 |
6.762 |
4.255 |
.000 |
表3.2-6线性回归的系数
以上三个数字说明可以认为二者符合线性相关模型,表述二者关系的线性公式为:
Time(T) = 0.929*seed(S) + 28.769
3.2.2.2对数曲线回归
第四步:对seed和time之间的关系进行对数曲线回归分析,结果如下图3.2-6所示:
图3.2-6 对数曲线模型的数据拟合
图3.2-6中,R方是0.919,这说明回归模型的鲁棒性和seed可以解释time 91.9%的变异性。
图3.2-6中,F值的显著性概率(Sig.)为0.000,小于5%,所以拒绝原假设,即认为回归系数不为0,回归方程是有效的。
以上的数据是对数曲线模型,它表示的这组数据的拟合曲线公式是:
T =
593.026ln(S) –
3182.075
3.2.2.3三次曲线回归
第五步:对seed和time之间的关系进行三次曲线回归分析,结果如下图3.2-7所示:
图3.2-7 三次曲线模型的数据拟合
图3.2-7中,R方是0.934,这说明回归模型的鲁棒性和seed可以解释time93.4%的变异性。
图3.2-7中,F值的显著性概率(Sig.)为0.000,小于5%,所以拒绝原假设,即认为回归系数不为0,回归方程是有效的。
以上的数据是三次曲线模型,它表示的这组数据的拟合曲线公式是:
T
=
-0.3835*10-7 *S3 +
0.001*S2 +
0.689*S +
41.565
3.2.2.3幂曲线回归
第六步:对seed和time之间的关系进行幂曲线回归分析,结果如下图3.2-8所示:
图3.2-8 幂曲线模型的数据拟合
图3.2-8中,R方是0.944,这说明回归模型的鲁棒性和seed可以解释time
94.4%的变异性。
图3.2-8中,F值的显著性概率(Sig.)为0.000,小于5%,所以拒绝原假设,即认为回归系数不为0,回归方程是有效的。
以上的数据是幂曲线模型,它表示的这组数据的拟合曲线公式是:
T = 1.128* S0.978
图3.2-8 幂曲线模型的信息拟合
在这一节中,我们看到,这四个回归模型都是符合的。但是对于整体而言,幂曲线回归模型更适合于这组数据的拟合,即幂曲线模型是最适合这个数据的模型。
T
= 1.128* S0.978 该模型揭示了全国赛成绩与预选赛成绩正相关,教练员在选取参加全国赛的运动员时,除排名的因素外,也要考虑预选赛成绩。
3.3聚类分析
3.3.1 Split-x的系统聚类分析
单击“分析”à“分类”à“系统聚类”,得到如图3.3-1的对话框。本次采用Word聚类法,即离差平方和法。它的思想是,同类离差平方和较小,类间偏差平方和较大。Word方法并类时总是使得并类导致的类内离差平方和增量最小。公式:
递推公式:
图3.3-1系统聚类对话框
分析结果如下:
1.系统聚类的样品聚类过程见附件1.
2.我们可以通过更加形象直观的树状图来观察整个聚类过程和聚类效果。如图3.3-2所示:
图3.3-2使用组间联结的系统聚类的树状图
这样将运动员分为几大类,具体的运动员归到某一类中,教练员可以根据他们的特点,指定适合他们的特制的训练方案,从而帮助运动员提升成绩。
3.3.2 K-means聚类分析
单K-means聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是把被聚对象进行初始分类,然后逐步调整。K-means法对离群点敏感容易扭曲数据分布。 单击菜单栏“分析”à“分类”à“K均值聚类”,得到如图3.3-3的对话框,我们根据系统聚类法将K选择为5.迭代次数选择为25次。
图3.3-3 K-means聚类分析
下面输出K-means聚类结果:
1)表3.3-1是K-means聚类的初始聚类中心,也就是种子点。
表3.3-1 初始聚类中心 |
|||||
聚类 |
|||||
1 |
2 |
3 |
4 |
5 |
|
Split1 |
82.99 |
77.04 |
96.14 |
50.63 |
28.75 |
Split2 |
83.07 |
88.99 |
125.98 |
58.01 |
30.90 |
Split3 |
86.08 |
179.97 |
124.36 |
60.35 |
31.19 |
Split4 |
89.08 |
91.05 |
124.08 |
62.04 |
30.97 |
Split5 |
90.24 |
89.48 |
122.52 |
60.16 |
30.78 |
Split6 |
91.35 |
87.76 |
123.96 |
61.51 |
30.44 |
Split7 |
92.96 |
88.74 |
130.45 |
61.68 |
29.90 |
Split8 |
90.90 |
90.81 |
135.47 |
61.66 |
29.79 |
Split9 |
92.50 |
90.24 |
138.19 |
61.05 |
30.05 |
Split10 |
86.52 |
86.48 |
110.23 |
58.49 |
29.11 |
2)表3.3-2是K-means的迭代历史记录,很明了。
表3.3-2迭代历史记录a |
|||||
迭代 |
聚类中心内的更改 |
||||
1 |
2 |
3 |
4 |
5 |
|
1 |
13.812 |
.000 |
27.732 |
12.329 |
30.640 |
2 |
9.053 |
.000 |
8.781 |
4.434 |
6.068 |
3 |
3.431 |
.000 |
10.736 |
2.514 |
2.458 |
4 |
2.034 |
.000 |
7.854 |
1.443 |
1.130 |
5 |
2.984 |
.000 |
8.290 |
.685 |
.663 |
6 |
1.847 |
.000 |
1.893 |
.135 |
.468 |
7 |
1.357 |
.000 |
1.973 |
.118 |
.187 |
8 |
1.536 |
.000 |
.000 |
.679 |
.000 |
9 |
.887 |
.000 |
1.802 |
.424 |
.187 |
10 |
1.426 |
.000 |
3.281 |
.414 |
.186 |
11 |
.374 |
.000 |
.000 |
.409 |
.187 |
12 |
1.302 |
.000 |
1.650 |
.816 |
.377 |
13 |
1.554 |
.000 |
1.498 |
.845 |
.287 |
14 |
1.847 |
.000 |
4.096 |
.393 |
.189 |
15 |
1.492 |
.000 |
1.277 |
.700 |
.191 |
16 |
.816 |
.000 |
1.238 |
.271 |
.095 |
17 |
.650 |
.000 |
.000 |
.421 |
.095 |
18 |
1.003 |
.000 |
.000 |
.822 |
.286 |
19 |
1.241 |
.000 |
.000 |
.838 |
.193 |
20 |
1.296 |
.000 |
1.256 |
.685 |
.188 |
21 |
2.361 |
.000 |
4.347 |
.745 |
.378 |
22 |
3.628 |
.000 |
4.542 |
.961 |
.188 |
23 |
1.598 |
.000 |
.000 |
1.267 |
.284 |
24 |
.000 |
.000 |
.000 |
.427 |
.378 |
25 |
.285 |
.000 |
.000 |
.564 |
.380 |
|
3)表3.3-3是每个样品数表。就是该次K-means聚类所形成的类它们的样品数量。
每个聚类中的案例数 |
||
聚类 |
1 |
103.000 |
2 |
1.000 |
|
3 |
42.000 |
|
4 |
193.000 |
|
5 |
218.000 |
|
有效 |
557.000 |
|
缺失 |
11.000 |
表3.3-3 K-means聚类每个聚类中的案例数。
4)最终聚类中心间的距离。由结果可得,该结果与Word法有所相似,但是组内距离较大。实际效果不如word法。而且该方法需要事先设定分类的个数,并不适合没有先验知识的条件下的数据聚类。
最终聚类中心间的距离 |
|||||
聚类 |
1 |
2 |
3 |
4 |
5 |
1 |
118.949 |
80.550 |
52.194 |
93.068 |
|
2 |
118.949 |
86.522 |
159.319 |
195.164 |
|
3 |
80.550 |
86.522 |
132.710 |
173.582 |
|
4 |
52.194 |
159.319 |
132.710 |
40.886 |
|
5 |
93.068 |
195.164 |
173.582 |
40.886 |
5)具体的每个个案的聚类信息见附件2.
4 结论
通过对seed、time、age等的描述性分析,我们得到了age等变量的分布方式(例age符合正态分布,符合数据的样本代表性要求)。通过对seed和time的回归分析,我们得到了不同模型下,二者的数据拟合程度。根据最后的回归模型,我们了解到了二者的定量的关系,从而能够指导教练员对参加全国赛运动员的选择。在对split1~split10的聚类分析中,我们了解到了不同运动员的水平,这可以指导教练员根据不同的运动员的水平差异,来制定适合各自特点的训练方案,从而帮助运动员获得更好成绩。
5 其他
(1)如何衡量split1~split10的变化规律?并用实际的运动员策略的选择来解释这种规律。
由于 每个人的特异性,我们只关注他们的运动模式而不是快慢,所以可以先对每个人的split1~split10数据进行处理,使得他们之间具有可比性。具体方案是,将每一行(即某个运动员的数据)的split1~split10数据转化到0~1之间的数(比如第1行,第m个数x可以转化为y=(x-min)/(max-min),max是第一行最大值,min是第一行的最小值)。然后把新生成的数据矩阵放在一个新表里。根据表中数据作出各个运动员的折线图,将各个运动员的折线图画在同一个图里(注意将折线图的透明度调高一点),这样处理完之后得到的图颜色最深的线就是共同规律。 我们可以猜想这样颜色深的线会存在一条或一条以上,这代表着运动员对竞赛策略的选择:1先发力取得优势,后努力保持优先 2.先保存体能实力,到最后阶段发力反超。
(2)SPSS系统聚类的方法都有什么方法?并解释其对应的数学原理。请简要列举。
系统聚类的聚类方法SPSS共提供了七种,包括组建联接法、组内联结法、最近邻元素法、最远邻元素法、质心聚类法、中位数聚类法、word法。其中最短距离聚类法步骤如下:1.规定样本间的距离,计算样本两两之间的距离,得到对称矩阵。开始每个样品自成一类。2.选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1,将这两个样品归并成为一类,记为G1。3.计算G1与其他样品的距离。重复以上过程直到所有样品合并为一类。 组间联接聚类法定义为两类之间的平均平方距离,即
。类CK和CL合并为下一步的CM和CJ。距离递推公式为:
。 Word聚类法即离差平方和法。它的思想是,同类离差平方和较小,类间偏差平方和较大。Word方法并类时总是使得并类导致的类内离差平方和增量最小。公式:
递推公式是:
。
(3)在SPSS非参数检验中,单个样本的卡方检验的数学原理是什么 ?
卡方检验属于拟合优度型检验,适用于具有分类特征的某种数据,用来检验属于某一类别的对象或反应的个案数与根据零假设所得期望数目之间是否有显著差异,进行检验时,需要构造下面的统计量 X2 =
式中,Oi归为第i类的实际个案数;Ei归为零假设成立时第i类中的期望频数。若实际的个案数与期望值越接近。则差值(Oi-Ei)越小,所以X2值就越小;若差值越大,则X2值就越大,则实际的个案就越可能不是来自服从零假设的总体。而且零假设成立时,X2值的抽样分布服从*度为k-1的卡方分布。 另外,应用卡方检验,要求所有单元的期望值大于或等于1,并且有20%以上单元中的期望值大于或等于5.
(4) 什么是因子分析?
因子分析的任务一是构造一个因子模型,确定模型中的参数,然后根据分析结果进行因子分析;二是对公共因子进行估计,并作进一步分析。它的基本思想是将实测得多个指标,用少数几个潜在的指标的线性组合来表示。将因子表示为变量的线性组合时,所得到的计算结果成为因子得分,它是对公共因子的估计值。利用它,可以作进一步的分析。
(5)什么是判别分析?
判别分析是在已知分类数目的情况下,根据一定的指标对不知类别的数据进行归类。具体而言,判别分析是利用原有的分类信息,得到体现这种分类的函数关系式(称之为判别函数,一般是与分类相关的若干个指标的线性关系式),然后利用该函数去判断未知样品属于哪一类。因此,因子分析是一个学习和预测的过程。常用的判别分析方法有距离判别法、费歇尔判别法和贝叶斯判别法等。根据处理变量的方式不同,又可以分为典型法和逐步法。
(6)简要介绍SPSS的二次开发。
SPSS在菜单Analyze中给出的分析方法是由许多独立的宏命令组合而成,这意味着我们可以自己组合宏命令实现一些SPSS菜单现在尚不能实现的功能。SPSS提供的二次开发基础语言是Sax Basic,它首先是面向对象的一种语言。用它可以轻松操纵所有SPSS对象,包括各种对象的方法、属性。此外,SPSS还可以与包括传统的DLL, DDE, OLE, ActiveX, Word, VB, MATLAB
等外部程序进行链接。
6参考文献
【1】林场 SPSS19.0实战之多元线性回归 2010-12-27
http://www.cnblogs.com/ventlam/archive/2010/12/27/SPSSLinear.html
【2】丁振帅,陈宇波 Analysis Of Treatment
Factors Based On Regression Model By IBM SPSS
2013-9-2
【3】统计软件SPSS 12.0for
Windows应用及开发指南/苏金明编著,--北京:电子工业出版社,2004.9 ISBN 7-121-00277-9