1.多元统计分析(Multivariate Statistical Analysis)
多元统计分析研究的是客观事物中多个变量(多个因素)之间相互依赖的统计规律性。假如说一个数据它有n维特征,我们称它为多元数据,而分析多元数据的统计方法就叫做多元统计分析。重要的多元统计分析方法有:多重回归分析(简称回归分析)、判别分析、聚类分析、主成分分析、典型相关分析、多元方差分析等。
2.统计分析的基本变量
设X、Y是两个随机变量 \[X = {({X_1},...,{X_p})^T},Y = {({Y_1},...,{Y_q})^T}\]
1)随机向量X的均值向量
若\[E({X_i}) = {\mu _i}\]存在,则称
\[E(X) = \left[ \begin{array}{l}
E({X_1})\\
\vdots \\
E({X_p})
\end{array} \right] = \left[ \begin{array}{l}
{\mu _1}\\
\vdots \\
{\mu _p}
\end{array} \right]\]
是随机向量X的均值向量。
2)随机向量X的协方差矩阵
若Xi和Xj的协方差Cov(Xi,Xj)存在(i,j=1,...,p),则称
\[\begin{array}{l}
D(X) = E((X - E(X)){(X - E(X))^T})\\
= \left[ \begin{array}{l}
Cov({X_1},{X_1})Cov({X_1},{X_2}) \cdots Cov({X_1},{X_p})\\
Cov({X_2},{X_1})Cov({X_2},{X_2}) \cdots Cov({X_2},{X_p})\\
\vdots \\
Cov({X_p},{X_1})Cov({X_p},{X_2}) \cdots Cov({X_p},{X_p})
\end{array} \right]\\
= {({\sigma _{ij}})_{p \times p}} \equiv \sum
\end{array}\]
为随机变量X的协方差矩阵。
协方差矩阵描述的是两个样本不同维度之间的协方差,即不同纬度之间的相关性。
3)随机向量X和Y的协方差矩阵
若Xi和Yj的协方差Cov(Xi,Yj)存在(i=1,...,p;j=1,...,q),则称
\[\begin{array}{l}
E(X,Y) = E((X - E(X)){(Y - E(Y))^T})\\
= \left[ \begin{array}{l}
Cov({X_1},{Y_1})Cov({X_1},{Y_2}) \cdots Cov({X_1},{Y_q})\\
Cov({X_2},{Y_1})Cov({X_2},{Y_2}) \cdots Cov({X_2},{Y_q})\\
\vdots \\
Cov({X_p},{Y_1})Cov({X_p},{Y_2}) \cdots Cov({X_p},{Y_q})
\end{array} \right]
\end{array}\]
为随机向量X和Y的协方差矩阵。若Cov(X,Y)=O(其中O为零矩阵),则称X和Y不相关。
4)随机向量X相关阵
若Xi和Xj的协方差Cov(Xi,Xj)存在(i=1,...,p;j=1,...,q),则称
\[R = {({r_{ij}})_{p \times p}}\]
为X的相关阵,其中
\[{r_{ij}} = \frac{{Cov({X_i},{X_j})}}{{\sqrt {Var({X_i})} \sqrt {Var({X_j})} }} = \frac{{{\sigma _{ij}}}}{{\sqrt {{\sigma _{ii}}{\sigma _{jj}}} }}(i,j = 1,2,...,p)\]
这里,
\[Var({X_i}) = Cov({X_i},{X_i}) \equiv {\sigma _{ii}}\]
为随机变量Xi的方差,而
\[\sqrt {{\sigma _{ii}}} \]
为Xi的标准差(i=1,2,...,p).
若记
\[{V^{1/2}} = diag(\sqrt {{\sigma _{11}}} ,...,\sqrt {{\sigma _{pp}}} )\]
为标准差矩阵,则
\[\sum = {V^{1/2}}R{V^{1/2}}\]
\[{\rm{R}} = {({V^{1/2}})^{ - 1}}\sum {({V^{1/2}})^{ - 1}}\]
3.样本数据阵
一个p维的随机向量X,
\[X = {({X_1},...,{X_p})^T}
如果同时对p个特征做一次观测,得观测值
\[({x_{11}},{x_{12}},...,{x_{1p}}) \equiv {X_{(1)}}^T\]
它是一个样品。观测n次有n个样品,而这n个样品就构成了一个样本。把这n个样品组成的样本排列成一个矩阵n*p,称为样本数据阵,记为
\[X = \left[ \begin{array}{l}
{x_{11}},{x_{12}},...,{x_{1p}}\\
{x_{21}},{x_{22}},...,{x_{2p}}\\
\vdots \\
{x_{n1}},{x_{n2}},...,{x_{np}}
\end{array} \right] \equiv \left[ \begin{array}{l}
{X_{(1)}}^T\\
{X_{(2)}}^T\\
\vdots \\
{X_{(n)}}^T
\end{array} \right]\]