卡方分布Chi-squared Distribution

卡方分布Chi-squared Distribution 分布通过检验统计量来比较期望结果和实际结果之间的差别，然后得出观察结果发生的概率。其中O代表观察值，E代表期望值。这个检验统计量提供了一种期望值与观察值之间差异的度量办法。最后反映在卡方分布Chi-squared Distribution 数值的大小上。

那么，当卡方分布Chi-squared Distribution 大到什么程度，差异才算显著呢？这要根据*度，设定的显著性水平查找分布表来判定。对于卡方分布的具体使用，我认为其有三要素：一个公式，一张分布表，一张概率密度图。下左图中n代表*度，纵轴为概率值，横轴为卡方值。*度越大，卡方分布的外形越接近正态分布。下右表即为卡方分布表，第一列为*度，第一行为显著水平，据此可以查找到临界值，如果检验统计量卡方分布Chi-squared Distribution 大于临界值，则检验统计量就位于拒绝域以内，说明观察结果与期望结果之间的差异显著。

卡方分布Chi-squared Distribution

卡方分布Chi-squared Distribution 分布有两个主要用途：

（1）用于检验拟合优度，也就是可以检验一组数据与指定曲线的拟合程度，或检验某组观察值是否符合某种分布。

（2）检验两个变量的独立性，通过这个方法检查两个变量之间是否存在某种关联

对于拟合优度检验，主要是找到期望值与观察值，带入公式计算卡方值，然后查表即可得出结论。举例说明：

本人开发了一台体重秤，我想通过与标准体重秤对比，看看我开发的体重秤在精度上是否能够和标准设备相媲美，是否与标准设备存在显著差异，于是我找来5个人，我知道他们总体重值为300kg，所以我只需要知道4个人的体重，就可以知道第五个人的体重，因此，确定了*度为4，然后设定了显著性水平卡方分布Chi-squared Distribution =0.05。对于每一个人，各用我开发的体重秤和标准体重秤称量一次，我就获得了每个人的期望值（标准称量结果）与我的观察值（我开发的体重秤称量结果），然后带入卡方公式求得卡方值，与查表所得临界值进行比较，如果大于临界值，说明差异显著。

对于变量独立性检验，与拟合优度检验的差别在于需要通过观察值算出期望值，这要依靠概率。。。首先要为两个变量构建列联表，假设我们要检验一场赌局的结果是否与庄家有关系，观察结果如下：

观察值	庄家A	庄家B	庄家C	合计
赢	43	49	22	114
平	8	2	5	15
赔	47	44	30	121
合计	98	95	57	250

据此依靠概率建立期望值，我们假设庄家和是否赢局无关，则依据此假设建立起来的A坐庄且赢的概率=A坐庄率X赢局率

A坐庄率=98/250

赢局率 =114/250

于是与A坐庄且赢的观察值所对应的期望值为250XA坐庄率X赢局率

以此类推，可求得其他期望值。

期望值	庄家A	庄家B	庄家C
赢	44.688	43.32	25.992
平	5.88	5.7	3.42
赔	47.432	45.98	27.588

*度是在考虑限制条件的情况下，可以*选择的独立信息的数目。鉴于我们知道每一行和每一列的总和，因此，只需知道表中红色部分的内容即可，因此*度为4.

当卡方结果大于临界值，说明观察值和期望值有差别，由于我们的假设认为是否赢局和庄家没有关系，基于此假设，计算得到期望值，可实际观察值和期望值却有明显差别，则说明两个变量不独立，反之，如果卡方结果小于临界值，则独立。

就是因为我们在假设两个变量相互独立的情况下得到的期望值，如果观察值与期望值无显著差别，说明观察值符合我们的假设。

秒客网

卡方分布Chi-squared Distribution

相关文章