Chapter 5:多元正态分布的假设检验(1)
一、单个总体均值向量的检验
Part 1:协方差阵已知的均值向量的检验
设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 为多元正态总体 \(X\sim N_p\left(\mu,\Sigma\right)\) 的独立同分布的样本,其中 \(\Sigma>0\) 已知,考虑以下检验问题
方法一:检验统计量
构造检验统计量
对于给定的显著性水平 \(\alpha\) ,检验的拒绝域为
方法二:似然比检验
写出样本的联合密度函数
在 \(H_1\) 和 \(H_0\) 假设下的极大似然分别为
构造似然比统计量为
当样本容量 \(n\) 很大时,
对于给定的显著性水平 \(\alpha\) ,检验的拒绝域为
可以发现,这里的似然比检验与构造检验统计量的结果一致。
Part 2:协方差阵未知的均值向量的检验
设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 为多元正态总体 \(X\sim N_p\left(\mu,\Sigma\right)\) 的独立同分布的样本,\(\mu\) 和 \(\Sigma\) 未知,\(\Sigma>0\),考虑以下检验问题
方法一:检验统计量
构造检验统计量
对于给定的显著性水平 \(\alpha\) ,检验的拒绝域为
方法二:似然比检验
写出样本的联合密度函数
此时的参数空间为
在 \(H_1\) 假设下的极大似然为
在 \(H_0\) 假设下的极大似然为
其中
构造似然比统计量为
由于 \(\lambda\) 为 \(T^2\) 的严格单调递减函数,故这里的似然比检验等价于 \(T^2\) 统计量检验,即
然后构造 \(F\) 统计量并求出拒绝域即可。
二、均值向量的区间估计
Part 1:均值向量的置信域
多元统计中的置信域是对一元统计中的置信区间的推广,和我们后面讨论的联立置信区间在概念上有一点点区别。
考虑单正态总体检验的 \(T^2\) 统计量:
以及相应的 \(F\) 统计量:
则有均值向量 \(\mu\) 的置信度为 \(1-\alpha\) 的置信域为
该置信域是一个以 \(\bar{X}\) 为中心的椭球:
Part 2:均值向量的联立置信区间
这里我们主要考虑 \(\mu\) 的线性组合 \(a\'\mu\) 的置信区间,这里 \(a\) 是一个 \(p\) 维的非零常数向量,所以 \(\mu\) 的联立置信区间,其上限和下限都是与 \(a\) 有关的。
若 \(\Sigma\) 已知,采用正态区间,取枢轴量为
所以 \(a\'\mu\) 的置信度为 \(1-\alpha\) 的置信区间为
若 \(\Sigma\) 未知,采用 \(t\) 区间,取枢轴量为
所以 \(a\'\mu\) 的置信度为 \(1-\alpha\) 的置信区间为
对于以上两种情况,如果取 \(a=e_i=\left(0,\cdots,1,\cdots,0\right)\'\) ,即取 \(e_i\) 为第 \(i\) 个分量为 \(1\) 而其余均为 \(0\) 的向量,则可以得到均值向量 \(\mu\) 的第 \(i\) 个分量 \(\mu_i\) 的置信度为 \(1-\alpha\) 的置信区间,不妨设为 \(D_i\) 。通过选择不同的常数向量 \(a\) ,便可得到 \(\mu\) 的所有分量的置信度为 \(1-\alpha\) 的置信区间。需要注意,此时总的置信区间为一个立方体 \(D_1\times D_2\times \cdots\times D_p\) ,但总的置信度比 \(1-\alpha\) 小。
Part 3:均值向量的最大置信区间
这里我们还是考虑 \(\mu\) 的线性组合 \(a\'\mu\) 的置信区间,但如果使用如上所述的一元数理统计方法,得到的并不是最大的置信区间。下面我们主要考虑协方差阵 \(\Sigma\) 未知的情况。
取枢轴量的平方
由二次型的极值性质可知,当 \(a\) 与 \(S^{-1}\left(\bar{X}-\mu\right)\) 成比例时,该枢轴量的平方达到最大值,即
对于任意的 \(a\neq0\) 都有
所以 \(a\'\mu\) 的置信度为 \(1-\alpha\) 的最大置信区间为
事实上,Hotelling \(T^2\) 统计量找到了某个向量 \(a\) ,是的均值向量投影在该方向上具有最大的置信区间。也就是说,对于一组样本,如果它的 Hotelling \(T^2\) 统计量没有落入置信区间,那么其余所有 \(a\'\mu\) 都不会落入其对应的置信区间。
类似地,如果取 \(a=e_i=\left(0,\cdots,1,\cdots,0\right)\'\) ,则可以得到 \(\mu_i\) 的置信度为 \(1-\alpha\) 的最大置信区间
其中 \(S_{ii}\) 为 \(S\) 的第 \(i\) 个对角线元素,但此时总的置信度仍然比 \(1-\alpha\) 小。
Part 4:均值向量的联合置信区间
联合置信区间直接考虑 \(\mu\) 的每个分量 \(\mu_i\) 的置信区间,通过直积得到总的置信区间,并且要求总的置信度等于 \(1-\alpha\) 。这里我们需要对 \(\mu_i\) 设置一个较大的置信区间 \(1-\alpha_i\) 。记
则有 \(P\left(D_i\right)=1-\alpha_i\) 。如果进一步满足
则称 \(D_1\times D_2\times\cdots\times D_p\) 为均值向量 \(\mu\) 在置信度为 \(1-\alpha\) 下的联合置信区间。
一般地,我们常取 \(\alpha_i=\alpha/p\) ,即有 \(P(D_i)=1-\alpha/p\) 。
三、两个总体均值向量的检验
Part 1:协方差阵相等且已知的检验
设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 和 \(Y_{(\alpha)},\,\alpha=1,2,\cdots,m\) 分别为多元正态总体 \(X\sim N_p\left(\mu_1,\Sigma\right)\) 和 \(Y\sim N_p\left(\mu_2,\Sigma\right)\) 的独立同分布的样本,其中 \(\Sigma>0\) 已知,考虑以下检验问题
构造检验统计量
对于给定的显著性水平 \(\alpha\) ,检验的拒绝域为
检验统计量的分布证明如下:
\[\bar{X}\sim N_p\left(\mu_1,\frac{\Sigma}{n}\right) \ , \quad \bar{Y}\sim N_p\left(\mu_2,\frac{\Sigma}{m}\right) \ . \]在 \(H_0\) 假设下有
\[\bar{X}-\bar{Y}\sim N_p\left(0,\frac{\Sigma}{n}+\frac{\Sigma}{m}\right) \ . \]所以有
\[Z=\Sigma^{-1/2}\frac{\bar{X}-\bar{Y}}{\sqrt{\cfrac1n+\cfrac1m}}\sim N_p\left(0,I_p\right) \ . \]构造检验统计量
\[K^2=Z\'Z=\left(\frac{nm}{n+m}\right)\left(\bar{X}-\bar{Y}\right)\'\Sigma^{-1}\left(\bar{X}-\bar{Y}\right)\sim\chi^2(p) \ . \]
Part 2:协方差阵相等但未知的检验
设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 和 \(Y_{(\alpha)},\,\alpha=1,2,\cdots,m\) 分别为多元正态总体 \(X\sim N_p\left(\mu_1,\Sigma\right)\) 和 \(Y\sim N_p\left(\mu_2,\Sigma\right)\) 的独立同分布的样本,其中 \(\Sigma>0\) 但未知,考虑以下检验问题
构造检验统计量
其中 \(A_1\) 和 \(A_2\) 是两总体的样本离差阵,构造 \(F\) 统计量
对于给定的显著性水平 \(\alpha\) ,检验的拒绝域为
检验统计量的分布证明如下:
\[\bar{X}\sim N_p\left(\mu_1,\frac{\Sigma}{n}\right) \ , \quad \bar{Y}\sim N_p\left(\mu_2,\frac{\Sigma}{m}\right) \ . \]在 \(H_0\) 假设下有
\[\sqrt{\frac{mn}{m+n}}\left(\bar{X}-\bar{Y}\right)\sim N_p\left(0,\Sigma\right) \ . \]又因为
\[A_1=\sum_{\alpha=1}^n\left(X_{(\alpha)}-\bar{X}\right)\left(X_{(\alpha)}-\bar{X}\right)\'\sim W_p(n-1,\Sigma) \ , \\ A_2=\sum_{\alpha=1}^m\left(Y_{(\alpha)}-\bar{Y}\right)\left(Y_{(\alpha)}-\bar{Y}\right)\'\sim W_p(m-1,\Sigma) \ , \]且 \(A_1\) 与 \(A_2\) 相互独立,所以有
\[A_1+A_2\sim W_p\left(n+m-2,\Sigma\right) \ . \]构造检验统计量
\[\begin{aligned} T^2&=(n+m-2)\left[\sqrt{\frac{mn}{m+n}}\left(\bar{X}-\bar{Y}\right)\right]\'\left(A_1+A_2\right)^{-1}\left[\sqrt{\frac{mn}{m+n}}\left(\bar{X}-\bar{Y}\right)\right] \\ \\ &=\frac{nm}{n+m}\left(\bar{X}-\bar{Y}\right)\'\left(\frac{A_1+A_2}{n+m-2}\right)^{-1}\left(\bar{X}-\bar{Y}\right) \\ \\ &\sim T^2(p,n+m-2)\ . \end{aligned} \]
Part 3:协方差阵不等但已知的检验
设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 和 \(Y_{(\alpha)},\,\alpha=1,2,\cdots,m\) 分别为多元正态总体 \(X\sim N_p\left(\mu_1,\Sigma_1\right)\) 和 \(Y\sim N_p\left(\mu_2,\Sigma_2\right)\) 的独立同分布的样本,其中 \(\Sigma_1>0,\,\Sigma_2>0\) 且已知,考虑以下检验问题
构造检验统计量
对于给定的显著性水平 \(\alpha\) ,检验的拒绝域为
检验统计量的分布证明如下:
\[\sqrt{n}\left(\bar{X}-\mu_1\right)\sim N_p\left(0,\Sigma_1\right) \ , \quad \sqrt{m}\left(\bar{Y}-\mu_2\right)\sim N_p\left(0,\Sigma_2\right) \ . \]在 \(H_0\) 假设下有
\[\bar{X}-\bar{Y}\sim N_p\left(0,\frac{\Sigma_1}{n}+\frac{\Sigma_2}{m}\right) \ . \]所以有
\[Z=\left(\frac{\Sigma_1}{n}+\frac{\Sigma_2}{m}\right)^{-1/2}\left(\bar{X}-\bar{Y}\right)\sim N_p\left(0,I_p\right) \ . \]构造检验统计量
\[K^2=Z\'Z=\left(\bar{X}-\bar{Y}\right)\'\left(\frac{\Sigma_1}{n}+\frac{\Sigma_2}{m}\right)^{-1}\left(\bar{X}-\bar{Y}\right)\sim\chi^2(p) \ . \]
Part 4:协方差阵不等且未知的检验
我们只考虑样本容量相等的情况。若样本容量不相等,这类问题的检验统计量没有小样本分布,故在此不进行讨论。
设 \(X_{(\alpha)},Y_{(\alpha)},\,\alpha=1,2,\cdots,n\) 分别为多元正态总体 \(X\sim N_p\left(\mu_1,\Sigma_1\right)\) 和 \(Y\sim N_p\left(\mu_2,\Sigma_2\right)\) 的独立同分布的样本,其中 \(\Sigma_1>0,\,\Sigma_2>0\) 但均未知,考虑以下检验问题
令 \(Z_{(i)}=X_{(i)}-Y_{(i)},\,i=1,2,\cdots,n\) ,将问题转化为单个总体的均值向量假设检验问题
构造 \(T^2\) 统计量和相应的 \(F\) 统计量即可。注意,这里 \(X\) 和 \(Y\) 相互独立的信息没有利用。
检验统计量的分布证明如下:
\[Z=X-Y\sim N_p\left(\mu_1-\mu_2,\Sigma_1+\Sigma_2\right) \ . \]在 \(H_0\) 假设下有
\[\bar{Z}\sim N_p\left(0,\frac{1}{n}\left(\Sigma_1+\Sigma_2\right)\right) \ . \]后面按照协方差阵未知的均值向量的检验进行即可。
四、均值向量线性约束假设的检验
Part 1:线性约束假设问题
设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 为多元正态总体 \(X\sim N_p\left(\mu,\Sigma\right)\) 的独立同分布的样本,设 \(H_0:R\mu=r\) 为一个线性约束,其中 \(R,r\) 为已知的矩阵和向量,且 \(R\) 是 \(q\times p\) 的满秩矩阵,下面对 \(H_0\) 进行假设检验。
如果 \(\Sigma\) 已知,则有
故构造检验统计量
如果 \(\Sigma\) 未知,则有
故构造检验统计量
对应的 \(F\) 统计量为
可以证明,利用似然比检验会得到和上述检验统计量相同的结果。
Part 2:均值向量的球性检验
这是线性约束假设问题的一个应用。设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 为多元正态总体 \(X\sim N_p\left(\mu,\Sigma\right)\) 的独立同分布的样本,球型检验指的是检验 \(H_0:\mu_1=\mu_2=\cdots=\mu_p\) 和 \(H_1:\mu_1,\mu_2,\cdots,\mu_p\) 至少有一对不相等。
将原假设表示为线性约束
构造检验统计量
对应的 \(F\) 统计量为