高等数理统计(一)

时间:2024-02-17 08:50:48

引言

  【比较官方的简介】数理统计学是一门以概率论为基础,应用性很强的学科。它研究怎样以有效的方式收集、 整理和分析带有随机性的数据,以便对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。

  【简单的讲】,就是通过样本分析来推断整体。

  【意义或者重要性】在这个大数据时代,数据是非常重要的。怎样挖掘数据内部的规律或者隐含的信息,变得尤为重要。当时我们是不可能获得整体的数据的,所以我们只能通过抽取样本,进而通过样本来推断整体的规律。

目录  

  第一章、样本与统计量

    一、引言:

    二、总体与样本:

    三、统计量——随机变量的数字特征

      1、均值、方差

      2、矩、协方差、相关性与协方差矩阵

      3、距离与相似系数

      4、抽样分布定理

    四、常用分布:

  第二章、参数估计

    一、引言:

    二、点估计——矩估计法

    三、点估计——极大似然估计

    四、估计量的优良性准则

    五、区间估计——正态分布

      1、引入

      2、单个正态总体参数的区间估计

      3、两个正态总体的区间估计

    六、区间估计——非正态分布:

      1、大样本正态近似法

      2、二项分布

      3、泊松分布

  第三章、假设检验

    一、引言:

    二、正态总体均值的假设检验

      1、单正态总体 N(μ, σ2)均值 μ 的检验

        (1) 双边检验 H0: μ = μ0;H1: μ≠μ0 

        (2) 单边检验 H0: μ = μ0;H1: μ>μ0

      2、两个正态总体 N(μ1, σ12) 和  N(μ2, σ22)均值的比较

        (1) 双边检验 H0μ1 = μ2;H1μ1μ2 

          (2) 单边检验 H0μ1 >= μ2;H1μ1<μ2 

        (3) 单边检验 H0μ1 <= μ2;H1μ1>μ2 

    三、正态总体方差的检验

      1、单个正态总体方差的 χ2 检验

        (1) H0: σ2 =σ02;H1: σ2 ≠σ02

        (2) H0: σ2 =σ02;H1: σ2 >σ02

        (3)  H0σ2 ≤σ02;H1σ2 > σ02 (同2.)

      2、两正态总体方差比的 F 检验

         (1).  H0: σ12 = σ22;H1: σ12 ≠  σ22.

         (2) H0: σ12 = σ22;H1:    σ12> σ22

         (3) H0: σ12 ≤ σ22;H1:    σ12> σ22

   第四章、回归分析

    一、引言

    二、一元线性回归
      1、一元线性回归模型
      2、回归系数的最小二乘估计:
      3、回归方程的显著性检验
        (1)F 检验
        (2)T 检验
          (3)相关系数检验

      4、估计与预测

        (1) E(y0)的估计

        (2) y0的预测区间

     三、广义线性回归模型

 

     四、非线性回归模型

   第五章、方差分析

    一、引言

    二、单因子方差分析的统计模型  
    三、平方和分解
    四、参数估计
      1、点估计:正态分布的极大似然估计
      2、置信区间
    五、重复数不等情形
    六、多重比较
      1、效应差的置信区间
      2、之后补充
    
    七、方差齐性检验
      1、Hartley检验

 

第一章、样本与统计量

  本讲首先介绍了样本与统计量的基本概念,包括:总体、个体、样本、总体分布与样本分布;然后介绍了统计量的概念和几个常见的统计量:样本均值、方差、标准差、 k 阶原点矩和k 阶中心矩;最后介绍了抽样分布的概念与抽样分布定理

  一、引言:

  由于大量随机现象必然呈现出其规律性,因而从理论上讲,只要对随机现象进行足够多次的观察,随机现象的规律性就一定能够清楚地呈现出来。但是,客观上只允许我们对随机现象进行次数不多的观察或试验,也就是说:我们获得的只能是局部的或有限的观察资料(即样本)

  数理统计的任务就是研究怎样有效地收集、整理和分析所获得的有限资料,并对所研究的问题尽可能地给出精确而可靠的推断。现实世界中存在着形形色色的数据,分析这些数据需要多种多样的方法。

  因此,数理统计中的方法和支持这些方法的相应理论是相当丰富的。概括起来可以归纳成两大类。

  参数估计: 根据数据,对分布中的未知参数 进行估计;

  假设检验: 根据数据,对分布的未知参数的某种假设进行检验。

  参数估计与假设检验构成了统计推断的两种基本形式,这两种推断渗透到了数理统计的每个分支。

  【简单的讲】我们希望通过(有限的)样本及其统计量等信息去分析样本(的分布等),进而(通过参数估计和假设检验)去推断和检证整体的规律。

  二、总体与样本:

  1、总体、个体与样本:

  在数理统计中,称研究问题所涉及对象的全体为总体总体中的每个成员为个体。 例如: 研究某工厂生产的某种产品的废品率,则这种产品的全体就是总体,而每件产品都是一个个体。

  实际上,我们真正关心的并不一定是总体或个体本身,而真正关心的是总体或个体的某项数量指标。 如:某电子产品的使用寿命,某天的最高气温,加工出来的某零件的长度等数量指标。因此,有时也将总体理解为那些研究对象的某项数量指标的全体。

  为评价某种产品质量的好坏,通常的做法是:从全部产品中随机(任意)地抽取一些样品进行观测(检测),统计学上称这些样品为一个样本。 同样,我们也将样本的数量指标称为样本。因此,今后当我们说到总体及样本时,既指研究对象又指它们的某项数量指标

  【例1】研究某地区 N 个农户的年收人。 在这里,总体既指这 N 个农户,又指我们所关心的 N个农户的数量指标──他们的年收入( N 个数字)。 如果从这 N 个农户中随机地抽出 n 个农户作为调查对象,那么,这 n 个农户以及他们的数量指标──年收入( n个数字)就是样本。

  【注意】上例中的总体是直观的,看得见、摸得着的。但是,客观情况并非总是这样。如【例2】

  【例2】用一把尺子测量一件物体的长度。 假定 n 次测量值分别为X1,X2 ,…,Xn。显然,在该问题中,我们把测量值X1,X2 ,…,Xn看成样本。但总体是什么呢?

  事实上,这里没有一个现实存在的个体的集合可以作为上述问题的总体。可是,我们可以这样考虑,既然 n 个测量值 X1,X2 ,…,Xn 是样本,那么,总体就应该理解为一切所有可能的测量值的全体

  又如:为研究某种安眠药的药效,让 n 个病人同时服用这种药,记录服药者各自服药后的睡眠时间比未服药时增加睡眠的小时数 X1,X2,…,Xn, 则这些数字就是样本。 那么,什么是总体呢?

  设想让某个地区(或某国家,甚至全世界)所有患失眠症的病人都服用此药,则他们所增加睡眠的小时数之全体就是研究问题的总体

  2、总体分布

  对一个总体,如果用X表示其数量指标,那么,X的值对不同的个体就取不同的值。因此,如果我们随机地抽取个体,则X的值也就随着抽取个体的不同而不同。 所以,X是一个随机变量! 既然总体是随机变量X,自然就有其概率分布我们把X的分布称为总体分布。 总体的特性是由总体分布来刻画的。因此,常把总体和总体分布视为同义语。

  【例 3 (例 l 续)】在例 l中,若农户年收入以万元计,假定 N户的收入X只取以下各值: 0.5, 0.8, l.0, 1.2和1.5。取上述值的户数分别n1, n2, n3, n4和n5 (n1+n2+n3+n4+n5=N)。则X为离散型分布,分布律为:

X

0.5

0.8

1

1.2

1.5

k

n1/N

n2/N

n3/N

n4/N

n5/N

  【例4 ( 例2续 )】在例2中,假定物体真实长度为μ(未知)。一般说来,测量值X就是总体,取μ 附近值的概率要大一些,而离μ 越远的值被取到的概率就越小。 如果测量过程没有系统性误差,则X取大于μ 和小于μ 的概率也会相等。

  在这种情况下,人们往往认为X 服从均值为μ,方差为σ2正态分布。σ2反映了测量的精度。于是,总体X的分布为 N(μ ,σ2)。

  【说明】这里有一个问题,即物体长度的测量值总是在其真值 μ的附近,它不可能取负值。 而正态分布取值在(-∞,∞)上。那么,怎么可以认为测量值X服从正态分布呢? 回答这个问题,有如下两方面的理由。

  (1)对于X∼N(μ,σ2), P{μ-3σ<X<μ+3σ}=0.9974. 即 X 落在区间(μ-3σ,μ+3σ)之外的概率不超过 0.003, 这个概率非常小。X 落在(μ-4σ,μ+4σ)之外的概率就更小了。

  例如:假定物体长度μ =10厘米,测量误差为0.01厘米,则σ2=0.012。 这时((μ-3σ,μ+3σ)=(9.97,10.03)。于是,测量值落在这个区间之外的概率最多只有0.003,可忽略不计。 可见,用正态分布 N(10,0.012)去描述测量值X是适当的。完全可认为:X 根本就不可能取到负值;

  (2)另外,正态分布取值范围是(-∞,∞),这样还可以解决规定测量值取值范围上的困难。

  如若不然, 就需要用一个定义在有限区间(a,b)取值的随机变量来描述测量值X。那么, a和b到底取什么值呢?测量者事先很难确定。 再退一步,即使能够确定出a和b,却仍很难找出一个定义在 (a,b) 上的非均匀分布用来恰当地描述测量值。与其这样,还不如干脆就把取值区间放大到(-∞,∞),并用正态分布来描述测量值。这样,既简化了问题,又不致引起较大的误差。

  【离散分布和连续分布的说明】

  ● 如果总体所包含的个体数量是有限的, 则 称该总体为有限总体。有限总体的分布显然是离散型的,如【例3】。

  ● 如果总体所包含的个体数量是无限的,则 称该总体为无限总体。限总体的分布可以 是连续型的,如【例4】;也可是离散型的。

  但是,在数理统计中,研究有限总体比较困难。因为其分布是离散型的,且分布律与总体中所含个体数量有关系。通常在总体所含个体数量比较大时,将其近似地视为无限总体,并用连续型分布逼近总体的分布,这样便于进一步地做统计分析。如【例5】

  【例5】研究某大城市年龄在1岁到10岁之间儿童的身高。

  显然,不管城市规模多大,这个年龄段的儿童数量总是有限的。因此,该总体X只能是有限总体。总体分布只能是离散型分布然而,为便于处理问题,我们将有限总体近似地看成一个无限总体,并用正态分布来逼近这个总体的分布。 当城市比较大,儿童数量比较多时,这种逼近所带来的误差,从应用观点来看,可以忽略不计

 【样本的二重性】样本X1,X2,…,Xn既被看成数值,又被看成随机变量

  ● 假设 X1, X2, …, Xn 是总体X中的样本,在一 次具体的观测或试验中,它们是一批测量值, 是已经取到的一组数。这就是说,样本具有数的属性

  ● 由于在具体试验或观测中,受各种随机因素 的影响,在不同试验或观测中,样本取值可 能不同。因此,当脱离特定的具体试验或观 测时,我们并不知道样本 X1,X2,…,Xn 的具 体取值到底是多少。因此,可将样本看成随机变量。故样本又具有随机变量的属性。

  【例 6 (例2续)】在前面测量物体长度的例子中,如果我们在完全相同的条件下,独立地测量了n 次,把这 n 次测量结果,即样本记为 X1,X2,…,Xn .

  那么,我们就认为:这些样本相互独立,且有相同的分布;其分布与总体分布 N(μ ,σ2)相同

  【将上述结论推广到一般的分布】如果在相同条件下对总体 X 进行 n 次重复、独立观测,就可以认为所获得的样本X1,X2,…,Xn是 n 个独立且与总体 X 有同样分布的随机变量。在统计文献中,通常称相互独立且有相同分布的样本为随机样本或简单样本, n 为样本大小或样本容量

 

  3、样本分布

  既然样本 X1,X2,…,Xn 被看作随机向量,自然需要研究其联合分布。

  假设总体 X 具有概率密度函数 f (x),因样本 X1,X2,…,Xn独立同分布于 X,于是,样本的联合概率密度函数(也叫似然函数(likehood))为:

  【例7】 假设某大城市居民的收入 X 服从正态分布N(μ ,σ2), 概率密度为

 

  现从总体 X 中随机抽取样本 X1,X2,…,Xn ,因其独立同分布于总体 X,即: Xi ∼ N(μ ,σ2), i=1,2,…,n. 于是,样本X1,X2,…,Xn 的联合概率密度为

 

  三、统计量——随机变量的数字特征

  由样本推断总体的某些情况时,需要对样本进行“加工”,构造出若干个样本的已知 (确定)的函数,其作用是把样本中所含的某一方面的信息集中起来。这种不含任何未知参数的样本的函数称为统计量。它是完全由样本所决定的量

  1、均值、方差

  (1)数学期望:

 

  (2)方差:

【总体】

式(1.65)证明如下:方差等于平方均值减去均值的平方

Var(x)= E[ (x-Ex)²]

   = E[x²-2xEx+(Ex)²]

   = E(x²)-2ExEx+E(Ex)²

   =E(x²)-2(Ex)²+(Ex)²

   = E(x²)-[E(x)]²

【样本】注意方差不是除n,而是(n-1)

 

  (3)几种常用随机变量分布的期望和方差:

  2、矩、协方差、相关性与协方差矩阵

  (1)矩与中心化、标准化数据:

  【总体】

  

 

   

  【样本】

  

  

  

  

  

  (2)协方差与相关系数:

 

  (3)协方差矩阵与相关矩阵:

  

  

【协方差矩阵和相关系数矩阵的关系】由二者的定义公式可知,经标准化的样本数据的协方差矩阵就是原始样本数据的相关矩阵。 这里所说的标准化指正态化,即将原始数据处理成均值为0,方差为1的标准数据。

  

 

  3、距离与相似系数

  

  

  证明第(3)和(4)条之间的关系】

  

 

  

  

 

  4、抽样分布

  统计量既然依赖于样本,而后者又是随机变量,故统计量也是随机变量,有一定的分布,这个分布称为统计量的抽样分布。   

【抽样分布定理】设 X1,X2,...,Xn是来自均值为μ ,方差为 σ2 的总体的样本,则当 n 充分大时, 近似地有:

证明如下

【正态分布标准化定理】若X~N(μ,σ2),则 Z = (X-μ)/σ ~ N(0,1)

【中心极限定理】设 X1,X2,...,Xn是来自均值为μ ,方差为 σ2 的总体的样本,则当 n 充分大时, 近似地有:

 【应用1】可轻易的计算随机样本均值的概率分布值

【应用2】

【例1】用机器向瓶子里灌装液体洗涤剂,规定每瓶装 μ 毫升。但实际灌装量总有一定波动。假定灌装量的方差 σ2=1,如果每箱装这样的洗涤剂 25 瓶。求这 25 瓶洗净剂的平均灌装量与标定值 μ 相差不超过0.3毫升的概率;又如果每箱装50瓶时呢?

解:记一箱中 25 瓶洗净剂灌装量为 X1,X2,..., X25 是来自均值为μ , 方差为1的总体的随机样本。根据抽样分布定理1,近似地有

 

四、常用分布:

  1、χ2 分布:它是由正态分布派生出来的一种分布。

【定义】 设 X1, X2, …, Xn 相互独立,且均服从正态分布 N(0, 1), 则称随机变量

 服从*度为 n 的卡方分布,记成χn2

其实卡方分布是一种伽玛分布(α=n/2,Β=1/2时),详见【附伽玛分布和函数内容】

 

【附伽玛分布和函数内容】具体详见文章【LDA-math-神奇的Gamma函数】

 其实伽玛函数可以看成阶乘在实数上的扩展。

【性质】如下

对于性质(1),可由正态分布的标准化公式推出,即Zi = (Xi-μ)/σ ~ N(0,1),则Σ(Zi2)符合卡方分布。

对于性质(3),由于卡方分布是伽玛分布的特殊情况,则可直接由伽玛分布的均值和方差算出。

 

【分布密度函数】

 

【分布分位点】具体数值可以查表

 

  2、t 分布:

【定义】 设 X ~N(0, 1) ,  Y ~χn2 ,  且 X与Y 相互独立,则称随机变量

 为服从*度 n 的 t 分布,记为 T ~ tn

可以看出t分布的概率密度函数是偶函数,即 f(t) = f(-t)

t1-α(n) = -tα(n)

 

  3、F分布:

  【性质1】若 X ~ Fm,n,则 Y = X -1 ~ Fn,m

【性质2】

  在通常 F 分布表中,只对α 比较小的值,如α = 0.01, 0.05, 0.025及0.1等列出了分位点。但有时我们也需要知道α 比较大的分位点,它们在 F 分布表中查不到。这时我们就可利用分位点的关系式(1)把它们计算出来。

【例】对m=12,  n=9,  α=0.95,  我们在 F 分布表中查不到 F12,9(0.95),但由(1)式,知

【性质3】若X ~ tn , 则X2 ~ F1,n

  4、正态总体样本均值与样本方差的分布

 性质(4)是由性质(1)和(2)共同推出的。定理(1)(2)(4)基本上就是后面参数估计和假设检验的核心。

【例】在设计导弹发射装置时,重要内容之一是研究弹着点偏离目标中心的距离的方差。 对于某类导弹发射装置,弹着点偏离目标中心的距离服从 N(μ,σ2),这里σ2 = 100米2。 现在进行了25次发射试验,用 S2 记这25次试验中弹着点偏离目标中心的距离的样本方差。 求: S2 超过50米2的概率。