假设检验
定义
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
假设检验与区间估计都是根据样本信息推断总体分布。两者可以相互装转换唯一的区别是参数知不知道的问题。举例来说:统计全校学生(总体)的平均上网时间(参数),如果参数未知,通过样本进行推断则是区间估计,如果有人已经得到平均上网时间(参数),而你不知道这个参数可不可靠,则是假设检验,换句话说无假设不检验。
基本原理
(1)先假设总体某项假设成立,计算其会导致什么结果产生。若导致不合理现象产生,则拒绝原先的假设。若并不导致不合理的现象产生,则不能拒绝原先假设,从而接受原先假设。
(2)它又不同于一般的反证法。所谓不合理现象产生,并非指形式逻辑上的绝对矛盾,而是基于小概率原理:概率很小的事件在一次试验中几乎是不可能发生的,若发生了,就是不合理的。至于怎样才算是“小概率”呢?通常可将概率不超过0.05的事件称为“小概率事件”,也可视具体情形而取0.1或0.01等。在假设检验中常记这个概率为α,称为显著性水平。而把原先设定的假设成为原假设,记作H0。把与H0相反的假设称为备择假设,它是原假设被拒绝时而应接受的假设,记作H1。
假设的形式
H0——原假设, H1——备择假设
双侧检验:H0:μ = μ0 ,
单侧检验: ,H1:μ < μ0 或 , H1:μ > μ0 假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。
需要注意一下:双侧检验是检验样本平均数和总体平均数有无明显差异,不管差异方向,如:视频中的药对小白鼠是正向作用还是反向作用不管,只管是否有作用;而单侧检验是考虑方向性的,即是正向作用还是反向作用。
假设检验的种类
下面介绍几种常见的假设检验
一. T检验
什么是T检验?
T检验是假设检验的一种,又叫student t检验(Student’s t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
T检验用于检验两个总体的均值差异是否显著。
一个例子
例1:
“超级引擎”工厂是一家专门生产汽车引擎的工厂,根据*发布的新排放要求,引擎排放平均值应低于20ppm,如何证明生产的引擎是否达标呢?(排放量的均值小于20ppm)
思路1
一个直接的想法就是,把这个工厂所有的引擎都测试一下,然后求一下排放平均值就好了。比如工厂生产了10个引擎,排放水平如下:
15.6 16.2 22.5 20.5 16.4
19.4 16.6 17.9 12.7 13.9
排放平均值为
(15.6+16.2+22.5+20.5+16.4+19.4+16.6+17.9+12.7+13.9)/10=17.17(15.6+16.2+22.5+20.5+16.4+19.4+16.6+17.9+12.7+13.9)/10=17.17
小于*规定的20ppm,合格!
这也太简单了!
然而,随着“超级引擎”工厂规模逐渐增大,每天可以生产出10万个引擎,如果把每个引擎都测试一遍,估计要累死人了……
有没有更好的方法?
思路2
由于引擎数量太多,把所有引擎测试一遍太麻烦了,“智多星”有一个好想法:
可不可以采用“反证法”?先假设所有引擎排放量的均值为μμ,然后随机抽取10个引擎,看看这10个引擎的排放量均值与假设是否相符,如果相符,则认为假设是正确的,反之认为假设是错误的。这样,就可以通过一小部分数据推测数据的总体,真是太棒了!
具体怎么操作呢?
先建立两个假设,分别为:
H0:μ⩾20H0:μ⩾20 (原假设)
H1:μ<20H1:μ<20 (备择假设)
【μμ代表总体(所有引擎的排放量)均值】
在原假设成立的基础上,求出”取得样本均值或者更极端的均值”的概率,如果概率很大,就倾向于认为原假设H0H0是正确的,如果概率很小,就倾向于认为原假设H0H0是错误的,从而接受备择假设H1H1。
那么如何求这个概率p呢?
这就需要引入一个概念——统计量
简单的讲,统计量就类似于用样本已知的信息(如样本均值,样本标准差)构建的一个“标准得分”,这个“标准得分”可以让我们求出概率p
由于样本服从正态分布,且样本数量较小(10),所以这里要用到的统计量为t统计量,公式如下:
t=x¯−μS/n−−√∼t(n−1)t=x¯−μS/n∼t(n−1)
x¯:样本均值x¯:样本均值
μ:总体均值μ:总体均值
S:样本标准差S:样本标准差
n:样本容量n:样本容量
该tt统计量服从*度为n−1n−1的t分布
让我们试验一下!
现在抽取出10台引擎供测试使用,每一台的排放水平如下:
15.6 16.2 22.5 20.5 16.4
19.4 16.6 17.9 12.7 13.9
样本均值x¯=∑nk=1xkn=(15.6+16.2+22.5+20.5+16.4+19.4+16.6+17.9+12.7+13.9)10=17.17x¯=∑k=1nxkn=(15.6+16.2+22.5+20.5+16.4+19.4+16.6+17.9+12.7+13.9)10=17.17
样本方差S2=∑nk=1(xk−x¯)n−1S2=∑k=1n(xk−x¯)n−1
样本标准差S=S2−−√=(15.6−17.17)2+(16.2−17.17)2+⋯+(13.9−17.17)2n−1−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√=2.98S=S2=(15.6−17.17)2+(16.2−17.17)2+⋯+(13.9−17.17)2n−1=2.98
我们把原假设μ⩾20μ⩾20拆分,先考虑μ=20μ=20的情况
将数值带入t统计量公式中,可以得出t=17.17−202.98/10√=−3.00t=17.17−202.98/10=−3.00
由于t统计量服从*度为9的t分布,我们可以求出t统计量小于-3.00的概率,即下图阴影部分面积
p值
通过查询t分位数表(见附录),我们可知,当*度为9时,t统计量小于-2.821的概率为1%,而我们求得的t统计量为-3.00,所以t统计量小于-3.00的概率比1%还要小(因为-3.00在-2.81的左边,所以阴影面积更小)。
这个概率值通常被称作“p值”,即在原假设成立的前提下,取得“像样本这样,或比样本更加极端的数据”的概率。
到这里,我们可以总结出如下结论:
在μ=20μ=20成立(所有引擎排放均值为20ppm)的前提下,从所有引擎中随机选出10个引擎,这10个引擎排放均值小于17.17的概率小于1%
再考虑μ>20μ>20的情况:
由t统计量的公式t=x¯−μS/n√t=x¯−μS/n可以看出,当μμ增大,其他变量均保持不变时,tt统计量的值会变小,因此求概率时阴影面积也会变小,总结来看,我们得出如下结论:
在μ⩾20μ⩾20成立的前提下,从所有引擎中随机选出10个引擎,这10个引擎排放均值小于17.17的概率小于1%
由于1%的概率很小,所以我们更倾向于认为,原假设H0:μ⩾20H0:μ⩾20是错误的,从而接受备择假设H1H1。
综上,我们认为,所有引擎的排放量均值小于20ppm,工厂生产的引擎符合标准。
第一类错误与第二类错误
在例1中,我们认为1%的概率很小,所以更倾向于认为原假设是错误的,从而接受了备择假设。但这样的判断是准确的吗?为了探讨这个问题,我们考虑以下四种情况:
事实(右)/判断(下) | H0H0成立 | H1H1成立 |
---|---|---|
H0H0成立 | 判断正确 | 第二类错误 |
H1H1成立 | 第一类错误 | 判断正确 |
即:
如果事实为H0H0成立,而我们做出了接受备择假设H1H1的判断,则犯了第一类错误——拒真
如果事实为H1H1成立,而我们做出了接受原假设H0H0的判断,则犯了第二类错误——取伪
所以用另外一种角度来看上面的例子:
在μ⩾20μ⩾20成立的前提下,从所有引擎中随机选出10个引擎,这10个引擎排放均值小于17.17的概率小于1%,当我们据此做出“拒绝原假设H0H0,接受备择假设H1H1”的结论时,有小于1%的概率犯第一类错误,因为H0H0仍有小于1%的概率是成立的,虽然这个概率很小。
α值
所以利用t检验做出的结论并不是百分之百正确的,仍有很小的几率会犯错误。对于上面的例子,有些人会认为1%的概率已经很小了,可以拒绝原假设,还有些人会认为1%的概率虽然很小,但不足以拒绝原假设。为了解决这个问题,统计学家们提出了一个阈值,如果犯第一类错误的概率小于这个阈值,就认为可以拒绝原假设,否则认为不足以拒绝原假设。这个阈值就叫αα。
另一种流程
现在,让我们尝试引入α,用另一种流程解决例1:
建立原假设和备择假设
H0:μ⩾20H0:μ⩾20
H1:μ<20H1:μ<20
确定α
令α=0.05α=0.05(αα的值通常为0.01,0.05,0.1,视具体问题而定)
确定用于决策的拒绝域
在确定了αα和t统计量*度(根据样本容量可以求出,在这个例子中,*度为[样本容量-1])的前提下,我们可以通过查询t分位数表,找出“拒绝域”,如果t统计量落入拒绝域内,就拒绝原假设,否则接收原假设。
根据t分位数表,我们查出当*度为9时,t⩽−1.833t⩽−1.833的概率为0.05,因此,拒绝域为{tt|t⩽−1.833t⩽−1.833}
查看样本结果是否位于拒绝域内
将样本均值和样本标准差带入t统计量计算公式,得出t=-3.00,落入拒绝域内
做出决策
拒绝原假设H0H0,接受备择假设H1H1,认为样本均值与总体均值差异显著,认为所有的引擎排放量平均值小于20ppm
以上就是t检验的标准化流程。
假设形式与拒绝域的推广
在例1中,我们的假设形式为:
H0:μ⩾x0H0:μ⩾x0
H1:μ<x0H1:μ<x0 (x0x0为某一常数)
拒绝域的形式为{t|t⩽ct|t⩽c} (cc为某一常数),如果用数轴表示,形如:
假设的形式与拒绝域的形式有没有什么联系呢?
为了进一步讨论,我们将假设的形式做如下分类:
类别1:备择假设中包含≠≠
1.1 H0:μ=x0H0:μ=x0 vs H1:μ≠x0H1:μ≠x0
类别2:备择假设中包含>或<>或<
2.1 H0:μ=x0H0:μ=x0 vs H1:μ>x0H1:μ>x0
2.2 H0:μ=x0H0:μ=x0 vs H1:μ<x0H1:μ<x0
2.3 H0:μ⩾x0H0:μ⩾x0 vs H1:μ<x0H1:μ<x0
2.4 H0:μ⩽x0H0:μ⩽x0 vs H1:μ>x0H1:μ>x0
注意:原假设和备择假设不一定将数轴全部覆盖,在实际生活中,形如2.1和2.2的问题是存在的
类别1称为双尾检验,由于备择假设中包含≠≠,拒绝域分布在两侧
t检验的分类
t检验分为单总体t检验和双总体t检验
单总体t检验
检验一个样本平均数与一个已知的总体平均数差异是否显著。
适用条件:
1.总体服从正态分布
2.样本量小于30(当样本量大于30时,用Z统计量)
统计量:
t=x¯−μS/n−−√∼t(n−1)t=x¯−μS/n∼t(n−1)
x¯x¯——样本均值
μμ——总体均值
SS——样本标准差
nn——样本容量
例1就是单样本t检验的例子。
双总体t检验
检验两个样本各自所代表的总体的均值差异是否显著,包括独立样本t检验和配对样本t检验
独立样本t检验
检验两个独立样本所代表的总体均值差异是否显著。
适用条件:
1.两样本均来自于正态总体
2.两样本相互独立
3.满足方差齐性(两总体方差相等)
统计量:
t=x¯−y¯Sw1m+1n−−−−−−√∼t(m+n−2)t=x¯−y¯Sw1m+1n∼t(m+n−2)
其中
Sw=1m+n+1[(m−1)S21+(n−1)S22]Sw=1m+n+1[(m−1)S12+(n−1)S22]
x¯x¯——第一个样本均值
y¯y¯——第二个样本均值
mm——第一个样本容量
nn——第二个样本容量
S21S12——第一个样本方差
S22S22——第二个样本方差
配对样本t检验
检验两个配对样本所代表的总体均值差异是否显著。
配对样本主要包含以下两种情形:
1.同源配对,也就是同质的对象分别接受两种不同的处理。例如:为了验证某种记忆方法对改善儿童对词汇的记忆是否有效,先随机抽取40名学生,再随机分为两组。一组使用该训练方法,一组不使用,三个月后对这两组的学生进行词汇测验,得到数据。问该训练方法是否对提高词汇记忆量有效?
2.自身配对
2.1某组同质对象接受两种不同的处理。例如:某公司推广了一种新的促销方式,实施前和实施后分别统计了员工的业务量,得到数据。试问这种促销方式是否有效?
适用条件:
每对数据的差值必须服从正态分布
统计量:
t=xd¯Sd/n−−√t=xd¯Sd/n
两配对样本对应元素做差后形成的新样本
xd¯xd¯——新样本均值
SdSd——新样本标准差
nn——新样本容量
T检验的应用领域:
T检验可用于比较药物治疗组与安慰剂治疗组病人的测量差别。
二. z检验(U检验)
Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
第一步:建立虚无假设 H0:μ1 = μ2 ,即先假定两个平均数之间没有显著差异,
第二步:计算统计量Z值,对于不同类型的问题选用不同的统计量计算方法,
1、如果检验一个样本平均数()与一个已知的总体平均数(μ0)的差异是否显著。其Z值计算公式为:
其中:
2、如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著。其Z值计算公式为:
其中:
- 是样本1,样本2的平均数;
- S1,S2是样本1,样本2的标准差;
- n1,n2是样本1,样本2的容量。
第三步:比较计算所得Z值与理论Z值,推断发生的概率,依据Z值与差异显著性关系表作出判断。如下表所示:
P值 | 差异程度 | |
---|---|---|
非常显著 | ||
显著 | ||
<1.96 | >0.05 | 不显著 |
第四步:根据是以上分析,结合具体情况,作出结论。