有序/无序分类变量的统计推断

时间:2024-05-19 09:56:26

有序/无序分类变量的统计推断

1 有序分类变量的统计推断——非参数检验

1.1 非参数检验概述

如果想要检验两个正态总体是否具有相同的均数 ,做t检验即可,这是一个典型的参数统计方法。参数统计方法往往假设统计总体的分布形态已知,但是在更多的实际场合常常由于缺乏足够信息 ,无法合理地去假设一个总体具有某种分布形式,此时就不能去使用相应的参数方法了。推而广之,不能使用参数方法的情形可能是当不知道所研究样本来着总体的具体分布,或已知总体分布与检验所要求的条件不符;数据的测量尺度是名义和顺序尺度,甚至某些变量可能无法稍确测量 ,均值、方差的计算已经没有意义时,但是,此时有的人却忽略参数统计方法的前提,仍然牵强地使用参数方法,面对由此得到的不合理结果却不知问题何在。 实际上,正确的思路应当是放弃对总体分布参数的依赖,转而寻求更多的纯粹来自数据的信息,这就是所谓的非参数统计方法。

非参数统计方法主要用于那些总体分布不能用有限个实参数来刻画,或者不考虑被研究的对象为何种分布以及分布是否已知的情形,它对总体分布几乎没有什么假定,只是有时对分布的形状做一些诸如连续、对称等简单假设。但实际上,并非说在推断中什么分布参数都不利于,而是指推断过程和结论均与原总体参数无关。例如,最常用的秩和检验就是基于秩次的分布特征推导出来的。

和参数方法相比,非参数检验方法的优势如下:

  • 稳健性。因为对总体分布的约束条件大大放宽,不至于因为统计中的假设过程过分理想化而无法切合实际情况,不至于对个别偏离较大的数据太敏感
  • 对数据的测量尺度无约束时,对数据的要求也不严格,什么数据类型都可以做
  • 适用于小样本、无分布样本、数据污染样本、混杂样本等

非参数检验预备知识
有序/无序分类变量的统计推断
有序/无序分类变量的统计推断

1.2 两个配对样本的非参数检验

事实上,配对样本的非参数检验方法的基本逻辑和参数检验并无区别,也是首先 求出配对数据的差值。然后考察差值总体的中心位置是否为0。只是由于不再涉及分布类型,因此不能使用均数这一与总体分布有关的参数加以检验。一般而言,相应的假设都被归结为考察总体中位数是否为0。

  • H0:差值的总体中位数Md=0;
  • H1:差值的总体中位数Md≠0;

但是,仅有假设是不够的,还需要一个合适的统计量。构建统计量的方法如下:

  • Sign符号检验
    原理:如果两个配对样本实际上无区别,则将样本数据相减所得的差值应当大致有一半正,一半负。那么若H0成立,则S+,S-大体相等,都服从二项分布B(n,0.5)。显然,符号检验没有利用这些差值的大小所包含的信息,因此它虽然简单易行,但检验效能较低,精度较差。一般而言,这种方法更适用于对无法用数字计量的情况进行比较,如资料本身就是二分类,对于连续性的资料则最好不使用。
  • Wilcoxon符号秩检验
    既考虑样本差值的符号,又考虑到差值的顺序。若差值di为连续变量并且服从正态分布,则一般可以用t检验,若不是正态分布,就只能采用非参数分析方法。
  • McNemar
    配对卡方检验,只适用于二分类资料,它考察的重点是两组间分类的差异,对于相同的分类忽略不计,适用于自身对照设计,用于分析处理前后的变化情况。
  • Marginal Homogeneity
    是McNemar法向多分类情形的扩展,适用于资料为有序分类的情况。

1.3 两个独立样本的非参数检验

  • Mann-Whitney U检验
    它是和参数t检验相对应的一种非参数检验方法,用来检验两个独立样本是否取自同一总体,就是两样本秩和检验,在检验时利用了大小次序,即检验A样本中的数值是否多数都大于B样本。
  • Kolmogorov-Smirnov Z检验
    和单样本检验中K-S检验是一类的,可以对连续性资料的分布情况加以考察。
  • Moses Extreme Reactions检验
    结果为单侧检验。如果施加的处理使得某些个体出现正向效应,而另一些个体出现负向效应,就应当采用该检验方法。
  • Wald-Wolfowitz Runs检验
    属于游程检验的一种,即检验的是总体分布情况是否相同。

1.4 多个独立样本的非参数检验

  • Kruska-Wallis检验
  • Median中位数法

1.5 多个配对样本的非参数检验

  • Friedman检验
  • Kendall协和系数
  • Cochran检验方法

2 无序分类变量的统计推断——卡方检验

2.1 卡方检验概述

有序/无序分类变量的统计推断
有序/无序分类变量的统计推断
有序/无序分类变量的统计推断

卡方检测的用途

  • 检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布 、是否服从均匀分布、是否服从Poisson分布等
  • 检验某个分类变应各类的出现概率是否等于指定慨事。如在36选7的**抽奖中,每个数字出现的概率是否各为1 /36;掷硬币时正反两面出现的慨率是否均为 0.5
  • 检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关
  • 检验控制某种或某几种分类变量的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后 ,吸烟是否和呼吸道疾病有关 ,控制产品加工工艺的影响后,产品原料类别是否与产品合格有关
  • 检验某两种方法的结果是否一致。如果用两种诊断方法对同一批人进行诊断,其结果是否一致:采用两种方法对客户进行价值类别预测,预测结果是否一致

2.2 单样本案例:考察抽样数据的性别分布

有序/无序分类变量的统计推断

2.3 两样本案例:不同收入级别家庭的轿车拥有率比较

有序/无序分类变量的统计推断
有序/无序分类变量的统计推断
有序/无序分类变量的统计推断

2.4 一致性检验与配对卡方检验

关联程度的测量:卡方检验从定性的角度指出是否存在相关性,而各种关联指标从定量的角度指出相关的程度如何。不同的指标适用于不同类型的变量。

  • RR值是一个概率的比值,是指实验组人群反应阳性概率与对照组人群反应阳性概率的比值,用于反映实验因素与反应阳性的关联程度
  • OR值是比值的比,是反应阳性人群中实验因素有无的比例与反应阴性人群中实验因素有无的比例之比。在下列两个条件均满足时可用于估计 RR 值:所关注的事件发生的概率比较小(<0. I),这个条件保证比数比能对相对危险度有一个好的近似;所涉及的研究是病例对照研究
  • 在SPSS中,在交叉表过程的"统计量" 子对话框中选巾"风险"复选框会自动给出 OR与RR值

Kappa检验与配对卡方检验:Kappa 一致性检验用于对两种方法结果的一致程度进行评价;配对卡方检验则用于分析两种分类方法的分类结果是否有差异

2.5 分层卡方检验

分层卡方检验:分层卡方是把研究对象分解成不同层次,按各层对象来进行行变量与列变量的独立性研究。可在去除分层因素混杂的影响下更准确地对行列变量的独立性进行研究。在SPSS中,在交叉表过程的"统计量"子对话框中选中"Cochran’ s and Mantel- Haenszel统计量"复选框会自动给出分层卡方检验结果。