分布通过检验统计量来比较期望结果和实际结果之间的差别,然后得出观察结果发生的概率。其中O代表观察值,E代表期望值。这个检验统计量提供了一种期望值与观察值之间差异的度量办法。最后反映在数值的大小上。
那么,当大到什么程度,差异才算显著呢?这要根据*度,设定的显著性水平查找分布表来判定。对于卡方分布的具体使用,我认为其有三要素:一个公式,一张分布表,一张概率密度图。下左图中n代表*度,纵轴为概率值,横轴为卡方值。*度越大,卡方分布的外形越接近正态分布。下右表即为卡方分布表,第一列为*度,第一行为显著水平,据此可以查找到临界值,如果检验统计量大于临界值,则检验统计量就位于拒绝域以内,说明观察结果与期望结果之间的差异显著。
分布有两个主要用途:
(1)用于检验拟合优度,也就是可以检验一组数据与指定曲线的拟合程度,或检验某组观察值是否符合某种分布。
(2)检验两个变量的独立性,通过这个方法检查两个变量之间是否存在某种关联
对于拟合优度检验,主要是找到期望值与观察值,带入公式计算卡方值,然后查表即可得出结论。举例说明:
本人开发了一台体重秤,我想通过与标准体重秤对比,看看我开发的体重秤在精度上是否能够和标准设备相媲美,是否与标准设备存在显著差异,于是我找来5个人,我知道他们总体重值为300kg,所以我只需要知道4个人的体重,就可以知道第五个人的体重,因此,确定了*度为4,然后设定了显著性水平=0.05。对于每一个人,各用我开发的体重秤和标准体重秤称量一次,我就获得了每个人的期望值(标准称量结果)与我的观察值(我开发的体重秤称量结果),然后带入卡方公式求得卡方值,与查表所得临界值进行比较,如果大于临界值,说明差异显著。
对于变量独立性检验,与拟合优度检验的差别在于需要通过观察值算出期望值,这要依靠概率。。。 首先要为两个变量构建列联表,假设我们要检验一场赌局的结果是否与庄家有关系,观察结果如下:
观察值 | 庄家A | 庄家B | 庄家C | 合计 |
赢 | 43 | 49 | 22 | 114 |
平 | 8 | 2 | 5 | 15 |
赔 | 47 | 44 | 30 | 121 |
合计 | 98 | 95 | 57 | 250 |
据此依靠概率建立期望值,我们假设庄家和是否赢局无关,则依据此假设建立起来的A坐庄且赢的概率=A坐庄率X赢局率
A坐庄率=98/250
赢局率 =114/250
于是与A坐庄且赢的观察值所对应的期望值为250XA坐庄率X赢局率
以此类推,可求得其他期望值。
期望值 | 庄家A | 庄家B | 庄家C |
赢 | 44.688 | 43.32 | 25.992 |
平 | 5.88 | 5.7 | 3.42 |
赔 | 47.432 | 45.98 | 27.588 |
*度是在考虑限制条件的情况下,可以*选择的独立信息的数目。鉴于我们知道每一行和每一列的总和,因此,只需知道表中红色部分的内容即可,因此*度为4.
当卡方结果大于临界值,说明观察值和期望值有差别,由于我们的假设认为是否赢局和庄家没有关系,基于此假设,计算得到期望值,可实际观察值和期望值却有明显差别,则说明两个变量不独立,反之,如果卡方结果小于临界值,则独立。
就是因为我们在假设两个变量相互独立的情况下得到的期望值,如果观察值与期望值无显著差别,说明观察值符合我们的假设。