[统计学笔记] (八)分类数据分析

时间:2024-05-22 17:41:18

(八)分类数据分析

首先思考问题:

1. 为什么要对数据进行分类?如何对数据分类?

2. 数据分类后,如何对分类数据进行分析?

数据分类

[统计学笔记] (八)分类数据分析


分类变量的结果表现为类别,例如:性别 (男, 女)
各类别用符号或数字代码来测度
使用分类或顺序尺度

  • 你吸烟吗?  1.是;2.否
  • 你赞成还是反对这一改革方案? 1.赞成;2.反对

对分类数据的描述和分析通常使用列联表
可使用[统计学笔记] (八)分类数据分析检验 

[统计学笔记] (八)分类数据分析 统计量

[统计学笔记] (八)分类数据分析可以用于测定两个分类变量之间的相关程度。若用[统计学笔记] (八)分类数据分析表示观察值频数(observed frequency),用[统计学笔记] (八)分类数据分析表示期望值频数(expected frequency),则[统计学笔记] (八)分类数据分析统计量可以写为:

[统计学笔记] (八)分类数据分析

[统计学笔记] (八)分类数据分析 统计量有如下特征:首先 [统计学笔记] (八)分类数据分析,因为它是对平方结果的汇总;其次,[统计学笔记] (八)分类数据分析统计量的分布与*度有关;最后,[统计学笔记] (八)分类数据分析 统计量描述了观察值与期望值的接近程度。两者越接近,即[统计学笔记] (八)分类数据分析 越小,计算出的 [统计学笔记] (八)分类数据分析 值就越小;反之,[统计学笔记] (八)分类数据分析 越大,计算出的[统计学笔记] (八)分类数据分析值也越大。[统计学笔记] (八)分类数据分析检验正是通过对[统计学笔记] (八)分类数据分析的计算结果与[统计学笔记] (八)分类数据分析分布中的临界值进行比较,作出是否拒绝原假设的统计决策。

[统计学笔记] (八)分类数据分析

 [统计学笔记] (八)分类数据分析 分布与*度的关系如上图所示。上图中显示了*度分别为 1,5 和 10 时相应的 [统计学笔记] (八)分类数据分析 分布。

*度越小,分布就越像左边倾斜,随着*度的增加,[统计学笔记] (八)分类数据分析分布的偏斜度趋于缓解,逐渐显露出对称性,随着*度继续增大,[统计学笔记] (八)分类数据分析分布将趋近于对称的正态分布。

利用[统计学笔记] (八)分类数据分析统计量,可以对分类数据进行拟合优度检验和独立性检验。

拟合优度检验

拟合优度检验是用[统计学笔记] (八)分类数据分析统计量进行统计显著性检验的重要内容之一。它是依据总体分析状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行比较,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。

列联分析:独立性检验

对两个分类变量的分析,称为独立性检验,分布过程可以通过列联表的方式呈现,故有人把这种分析称为列联分析。

列联表:是将两个以上的变量进行交叉分类的频数分布表。由于列联表中的每个变量都可以有两个或两个以上的类别,列联表会有多种形式。不妨将横向变量(行)的华分类别视为R,纵向变量(列)的划分类别视为C,这样可以把每一个具体的列联表称为[统计学笔记] (八)分类数据分析列联表。

下面是 [统计学笔记] (八)分类数据分析 的列联表 

[统计学笔记] (八)分类数据分析

 下表是称为 [统计学笔记] (八)分类数据分析 列联表。

[统计学笔记] (八)分类数据分析

 

独立性检验就是分析列联表中行变量和列变量是否互相独立。

例题:

一种原材料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如上表所示,要求检验各个地区和原料等级之间是否存在依赖关系。([统计学笔记] (八)分类数据分析

求解:

[统计学笔记] (八)分类数据分析:地区和原料等级之间是独立的(不存在依赖关系)

[统计学笔记] (八)分类数据分析:地区和原料等级之间不独立(存在依赖关系)

这里分析的关键是获得期望值。

在表中第一行,甲地区的合计为 140,用 140/500 作为甲地区原料比例的估计值。

在表中第一列,一级原料的合计为 162,用 162/500 作为一级原料比例的估计值。

如果地区和原料等级之间是独立的,则可以用下面的公式估计第一个单元(甲地区,一级)中的期望比例。

令:[统计学笔记] (八)分类数据分析 样本单位来自甲地区的事件

      [统计学笔记] (八)分类数据分析 样本单位属于一级原料的事件

根据独立性的概率乘法公式,第一个单元格记作:

 [统计学笔记] (八)分类数据分析

0.09072 是第一个单元中的期望比例,相应的频数期望值为:

[统计学笔记] (八)分类数据分析

一般地,可以采用下面式子计算任何一个单元中频数的期望值:

[统计学笔记] (八)分类数据分析

式子中,[统计学笔记] (八)分类数据分析 为给定单元中的频数期望值;RT为给定单元所在行的合计;CT为给定单元所在列的合计;n为观察值得总个数,即样本量。

根据上面表格中的数据,进行计算:

[统计学笔记] (八)分类数据分析 [统计学笔记] (八)分类数据分析 [统计学笔记] (八)分类数据分析 [统计学笔记] (八)分类数据分析 [统计学笔记] (八)分类数据分析
1 1 52 45.36 6.64 44.09 0.97
1 2 64 52.64 11.36 129.05 2.45
1 3 24 42.00 -18.00 324.00 7.71
2 1 60 55.40 4.60 21.16 0.38
2 2 59 64.30 -5.30 28.09 0.44
2 3 52 51.30 0.70 0.49 0.01
3 1 50 61.24 -11.24 126.34 2.06
3 2 65 71.06 -6.06 36.72 0.52
3 3 74 56.70 17.30 299.29 5.28
            19.82
[统计学笔记] (八)分类数据分析

 

 

 

 

 

 

 

 

 

[统计学笔记] (八)分类数据分析 的*度为:[统计学笔记] (八)分类数据分析

令:[统计学笔记] (八)分类数据分析,查表知:[统计学笔记] (八)分类数据分析

由于 [统计学笔记] (八)分类数据分析,故拒绝 [统计学笔记] (八)分类数据分析,接受  [统计学笔记] (八)分类数据分析,即地区和原料等级之间存在依赖关系,原料的质量受地区的影响。

注意:*度的计算说明:

计算公式为: *度 = (行数-1)(列数-1)=(R-1)(C-1)


列联表中的相关测量

[统计学笔记] (八)分类数据分析 相关系数

列联相关系数

V 相关系数

数值分析

列联分析中应注意的问题

条件百分表的方向

[统计学笔记] (八)分类数据分析 分布的期望值准则

(更新中)