【数据挖掘数学基础】02常用分布(下)

时间:2024-05-23 13:34:41

目录

四、分布(卡方分布)

五、t分布

六、F分布

七、各分布的总结


四、【数据挖掘数学基础】02常用分布(下)分布(卡方分布)

1、定义:设随机变量X1,X2,……Xn相互独立,且XI(i=1,2,……,n)服从标准正态分布,则它们的平方和服从*度为n的X2分布。

2、性质特点:

  • 因卡方分布是平方和,所以分布的变量值始终为正;
  • 分布的形状取决于其*度n的大小,通常为不对称的正偏分布(右偏分布),但随着*度的增大逐渐趋向对称;

【数据挖掘数学基础】02常用分布(下)

  • 常用于方差的估计和假设检验,以及列联分析中;
  • 期望为:E(x2)=n,方差为:D(x2)=2n(n为*度);
  • 可加性:若U和V为两个独立的x2分布随机变量,U~x2(n1),V~x2(n2),则U+V这一随机变量服从*度为n1+n2的x2分布;
  • 当*度增加到足够大时,卡方分布的概率密度曲线趋于对称,当n —>+∞时,x2分布的极限分布是正态分布。

理解:卡方分布是相互独立的标准正态分布的平方

五、t分布

1、定义:设随机变量X~N(0,1),Y~x2(n),且X与Y独立,则【数据挖掘数学基础】02常用分布(下)其分布称为t分布,记为t(n),其中n为其*度。

【数据挖掘数学基础】02常用分布(下)

2、性质和特点:

  • 当n≥2时,t分布的数学期望E(t)=0;
  • 当n≥3时,t分布的方差D(t)=n/(n-2);
  • *度为1的t分布称为柯西分布;
  • 随着n*度的增加,t分布的密度函数越来越接近标准正态分布的密度函数。实际中,当n≥30时,t分布与标准正态分布就非常接近;

3、理解:

  • 公式理解:X是标准分布,Y是卡方分布,卡方分布是标准分布的平方和,我们可以换算【数据挖掘数学基础】02常用分布(下),后面的公式就是k=2时的幂平均公式【数据挖掘数学基础】02常用分布(下)。因此我们也可以从另个角度解读这个公式:就是拿一个标准分布除以其一堆标准分布的平均值。
  • t分布实际是z分布(标准正态分布)小时候的样子(矮一些胖一些),*度就是它的年龄随着年龄的增大,它逐渐变高变瘦变成了z分布;
  • 做小样本的时候要用t分布,只有在样本量足够大的时候才能用z分布。
  • 做研究的时候大多数是用小样本实验,所以一般是用t分布,如果结果还要换算称z分布工程会很复杂,因此很多研究和教材都默认是用t分布。

六、F分布

1、由R.A.Fisher(费希尔)提出,定义:设若U服从*度为m的x2分布,即U~x2(m),V服从*度为n的x2分布,即V~x2(n),且U和V相互独立。则,称F为服从*度m和n的F分布。记F~F(m,n)

【数据挖掘数学基础】02常用分布(下)

2、特征:

  • F分布的数学期望E(t)=n/(n-2),n>2;方差D(t)=2n2(m+n-2)/(m(n-2)(n-4)),n>4;
  • F分布是右偏分布;
  • F分布与t分布的关系:如果随机变量X服从t(n)分布,则X2服从F(1,n)的F分布。公式推导:

【数据挖掘数学基础】02常用分布(下)

公式理解:

t分布是标准分布/卡方分布平方根,t2=(标准分布)2/n的卡方分布,而标准分布的平方不就是*度n为1的卡方分布吗,[N(0,1)]2=x2(1)/1,因此t分布平方是服从m=1和n*度的F分布。

  • F分布在方差分析、回归方程的显著性检验中都有重要地位。

3、理解:

  • F~F(m,n)里的m和n*度是不能随便调换位置,因为m和n调换位置就意味着公式的m和n也要调换位置。F(m,n)是F(n,m)的倒数。

七、各分布的总结

1、各分布之间的关系:

【数据挖掘数学基础】02常用分布(下)

  • 标准分布的平方构造出卡方分布;
  • 标准分布/卡方分布即是t分布;
  • t分布的平方是F(1,n)分布;
  • 两个卡方分布构造出F分布;
  • 随着*度增大,卡方、t分布、F分布最终都会趋向正态分布。
  • 对称分布:正态分布、标准正态分布、t分布;
  • 右偏分布:卡方分布、F分布。

2、用查表方法计算各分布的分布函数和分位点

查表之前,我们需要了解两个指标Zɑ和Ф(x),以标准分布为例:

  • 分布函数Ф(x):表示在N(0,1)中,X=x左侧的面积,是用x值查表得到左侧面积。
  • 分为点Zɑ:表示在N(0,1)中,右侧的面积为ɑ的点,是用ɑ右侧面积查表得到值。

我们在查表的时候,首先要弄清楚我们拿到的表是分为点表还是分布函数表,以及是什么分布的表。如下图

【数据挖掘数学基础】02常用分布(下)

【数据挖掘数学基础】02常用分布(下)

【例子】设在标准分布下,求Z0.05,Z0.025,Z0.005

【解答】方法一,用分布函数表查:

【数据挖掘数学基础】02常用分布(下)

  • 先将右侧面积转成左侧面积,1-ɑ=1-0.05=0.95
  • 查表是查中间的值等于0.95,查的是在1.64~1.65之间,取中间1.645,所以Z0.05=1.645

【数据挖掘数学基础】02常用分布(下)

方法二,用分为点表查

  • 不用转换,直接查得:Z0.025=1.96,Z0.005=2.576

【数据挖掘数学基础】02常用分布(下)

  • t分布、F分布和卡方分布表的查询方法和标准分布是一样的。例子:t分布下,*度n=10,求t0.025.

【数据挖掘数学基础】02常用分布(下)

  • 从t分布-分为点表可以看出,当*度增大,值就越接近标准分布。也解释了所有分布最终状态是正态分布。(t分布在*度无限增大时,t0.025≈Z0.025≈1.96

【数据挖掘数学基础】02常用分布(下)

3、分为点Zɑ和分布函数表Ф(x)的关系:

  • Ф(x)也可以写成P(x)或P(z),P指的是概率0-1,是图形分布中间的面积,x、z是统计量值,是图形x轴的值,正无穷到负无穷。
  • Zɑ中Z指的是z分布的统计量,也可以写x2、t分布,是图形x轴的值,分为点,正无穷到负无穷。ɑ指的是概率0-1。
  • Zɑ与Ф(x),z就是x,ɑ就是Ф。
  • Zɑ中因为ɑ概率是大于0,所以ɑ概率面积是右侧面积,所以,如果我们刚拿到ɑ值要先弄明白求的是左侧分为点还是右侧分为点。左侧就需要1-ɑ。
  • P(x)[或Ф(x)]中,x是可以正负数的,求出的p值是大于0的左侧面积
  • Zɑ是用概率密度ɑ(面积)求得分为点;
  • P(x)[或Ф(x)]是用分为点x求得概率密度p(面积);

 

(无力吐槽……****公式编辑真的很不智能,我从word写好的笔记复制过来,公式左下角和右上角的值都跑出来了……)