多元统计分析基础

时间:2021-11-03 01:45:32

 1.多元统计分析(Multivariate Statistical Analysis)

  多元统计分析研究的是客观事物中多个变量(多个因素)之间相互依赖的统计规律性。假如说一个数据它有n维特征,我们称它为多元数据,而分析多元数据的统计方法就叫做多元统计分析。重要的多元统计分析方法有:多重回归分析(简称回归分析)、判别分析、聚类分析、主成分分析、典型相关分析、多元方差分析等。


 2.统计分析的基本变量

  设X、Y是两个随机变量  \[X = {({X_1},...,{X_p})^T},Y = {({Y_1},...,{Y_q})^T}\]

  1)随机向量X的均值向量

若\[E({X_i}) = {\mu _i}\]存在,则称
\[E(X) = \left[ \begin{array}{l}
E({X_1})\\
 \vdots \\
E({X_p})
\end{array} \right] = \left[ \begin{array}{l}
{\mu _1}\\
 \vdots \\
{\mu _p}
\end{array} \right]\]

是随机向量X的均值向量。

  2)随机向量X的协方差矩阵

若Xi和Xj的协方差Cov(Xi,Xj)存在(i,j=1,...,p),则称
\[\begin{array}{l}
D(X) = E((X - E(X)){(X - E(X))^T})\\
 = \left[ \begin{array}{l}
Cov({X_1},{X_1})Cov({X_1},{X_2}) \cdots Cov({X_1},{X_p})\\
Cov({X_2},{X_1})Cov({X_2},{X_2}) \cdots Cov({X_2},{X_p})\\
 \vdots \\
Cov({X_p},{X_1})Cov({X_p},{X_2}) \cdots Cov({X_p},{X_p})
\end{array} \right]\\
 = {({\sigma _{ij}})_{p \times p}} \equiv \sum
\end{array}\]

为随机变量X的协方差矩阵。

  协方差矩阵描述的是两个样本不同维度之间的协方差,即不同纬度之间的相关性。

  3)随机向量X和Y的协方差矩阵

若Xi和Yj的协方差Cov(Xi,Yj)存在(i=1,...,p;j=1,...,q),则称
\[\begin{array}{l}
E(X,Y) = E((X - E(X)){(Y - E(Y))^T})\\
 = \left[ \begin{array}{l}
Cov({X_1},{Y_1})Cov({X_1},{Y_2}) \cdots Cov({X_1},{Y_q})\\
Cov({X_2},{Y_1})Cov({X_2},{Y_2}) \cdots Cov({X_2},{Y_q})\\
 \vdots \\
Cov({X_p},{Y_1})Cov({X_p},{Y_2}) \cdots Cov({X_p},{Y_q})
\end{array} \right]
\end{array}\]

为随机向量X和Y的协方差矩阵。若Cov(X,Y)=O(其中O为零矩阵),则称X和Y不相关。

  4)随机向量X相关阵

若Xi和Xj的协方差Cov(Xi,Xj)存在(i=1,...,p;j=1,...,q),则称

\[R = {({r_{ij}})_{p \times p}}\]

为X的相关阵,其中
\[{r_{ij}} = \frac{{Cov({X_i},{X_j})}}{{\sqrt {Var({X_i})} \sqrt {Var({X_j})} }} = \frac{{{\sigma _{ij}}}}{{\sqrt {{\sigma _{ii}}{\sigma _{jj}}} }}(i,j = 1,2,...,p)\]

这里,
\[Var({X_i}) = Cov({X_i},{X_i}) \equiv {\sigma _{ii}}\]

为随机变量Xi的方差,而
\[\sqrt {{\sigma _{ii}}} \]

为Xi的标准差(i=1,2,...,p).

若记
\[{V^{1/2}} = diag(\sqrt {{\sigma _{11}}} ,...,\sqrt {{\sigma _{pp}}} )\]

为标准差矩阵,则
\[\sum  =  {V^{1/2}}R{V^{1/2}}\]

或者

\[{\rm{R}} = {({V^{1/2}})^{ - 1}}\sum {({V^{1/2}})^{ - 1}}\]


3.样本数据阵

一个p维的随机向量X,

\[X = {({X_1},...,{X_p})^T}

如果同时对p个特征做一次观测,得观测值
\[({x_{11}},{x_{12}},...,{x_{1p}}) \equiv {X_{(1)}}^T\]

它是一个样品。观测n次有n个样品,而这n个样品就构成了一个样本。把这n个样品组成的样本排列成一个矩阵n*p,称为样本数据阵,记为
\[X = \left[ \begin{array}{l}
{x_{11}},{x_{12}},...,{x_{1p}}\\
{x_{21}},{x_{22}},...,{x_{2p}}\\
 \vdots \\
{x_{n1}},{x_{n2}},...,{x_{np}}
\end{array} \right] \equiv \left[ \begin{array}{l}
{X_{(1)}}^T\\
{X_{(2)}}^T\\
 \vdots \\
{X_{(n)}}^T
\end{array} \right]\]