(八)分类数据分析
首先思考问题:
1. 为什么要对数据进行分类?如何对数据分类?
2. 数据分类后,如何对分类数据进行分析?
数据分类
分类变量的结果表现为类别,例如:性别 (男, 女)
各类别用符号或数字代码来测度
使用分类或顺序尺度
- 你吸烟吗? 1.是;2.否
- 你赞成还是反对这一改革方案? 1.赞成;2.反对
对分类数据的描述和分析通常使用列联表
可使用检验
统计量
可以用于测定两个分类变量之间的相关程度。若用表示观察值频数(observed frequency),用表示期望值频数(expected frequency),则统计量可以写为:
统计量有如下特征:首先 ,因为它是对平方结果的汇总;其次,统计量的分布与*度有关;最后, 统计量描述了观察值与期望值的接近程度。两者越接近,即 越小,计算出的 值就越小;反之, 越大,计算出的值也越大。检验正是通过对的计算结果与分布中的临界值进行比较,作出是否拒绝原假设的统计决策。
分布与*度的关系如上图所示。上图中显示了*度分别为 1,5 和 10 时相应的 分布。
*度越小,分布就越像左边倾斜,随着*度的增加,分布的偏斜度趋于缓解,逐渐显露出对称性,随着*度继续增大,分布将趋近于对称的正态分布。
利用统计量,可以对分类数据进行拟合优度检验和独立性检验。
拟合优度检验
拟合优度检验是用统计量进行统计显著性检验的重要内容之一。它是依据总体分析状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行比较,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。
列联分析:独立性检验
对两个分类变量的分析,称为独立性检验,分布过程可以通过列联表的方式呈现,故有人把这种分析称为列联分析。
列联表:是将两个以上的变量进行交叉分类的频数分布表。由于列联表中的每个变量都可以有两个或两个以上的类别,列联表会有多种形式。不妨将横向变量(行)的华分类别视为R,纵向变量(列)的划分类别视为C,这样可以把每一个具体的列联表称为列联表。
下面是 的列联表
下表是称为 列联表。
独立性检验就是分析列联表中行变量和列变量是否互相独立。
例题:
一种原材料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如上表所示,要求检验各个地区和原料等级之间是否存在依赖关系。()
求解:
:地区和原料等级之间是独立的(不存在依赖关系)
:地区和原料等级之间不独立(存在依赖关系)
这里分析的关键是获得期望值。
在表中第一行,甲地区的合计为 140,用 140/500 作为甲地区原料比例的估计值。
在表中第一列,一级原料的合计为 162,用 162/500 作为一级原料比例的估计值。
如果地区和原料等级之间是独立的,则可以用下面的公式估计第一个单元(甲地区,一级)中的期望比例。
令: 样本单位来自甲地区的事件
样本单位属于一级原料的事件
根据独立性的概率乘法公式,第一个单元格记作:
0.09072 是第一个单元中的期望比例,相应的频数期望值为:
一般地,可以采用下面式子计算任何一个单元中频数的期望值:
式子中, 为给定单元中的频数期望值;RT为给定单元所在行的合计;CT为给定单元所在列的合计;n为观察值得总个数,即样本量。
根据上面表格中的数据,进行计算:
行 | 列 | |||||
---|---|---|---|---|---|---|
1 | 1 | 52 | 45.36 | 6.64 | 44.09 | 0.97 |
1 | 2 | 64 | 52.64 | 11.36 | 129.05 | 2.45 |
1 | 3 | 24 | 42.00 | -18.00 | 324.00 | 7.71 |
2 | 1 | 60 | 55.40 | 4.60 | 21.16 | 0.38 |
2 | 2 | 59 | 64.30 | -5.30 | 28.09 | 0.44 |
2 | 3 | 52 | 51.30 | 0.70 | 0.49 | 0.01 |
3 | 1 | 50 | 61.24 | -11.24 | 126.34 | 2.06 |
3 | 2 | 65 | 71.06 | -6.06 | 36.72 | 0.52 |
3 | 3 | 74 | 56.70 | 17.30 | 299.29 | 5.28 |
19.82 | ||||||
的*度为:
令:,查表知:
由于 ,故拒绝 ,接受 ,即地区和原料等级之间存在依赖关系,原料的质量受地区的影响。
注意:*度的计算说明:
计算公式为: *度 = (行数-1)(列数-1)=(R-1)(C-1)
列联表中的相关测量
相关系数
列联相关系数
V 相关系数
数值分析
列联分析中应注意的问题
条件百分表的方向
分布的期望值准则
(更新中)