Chapter 2：多元回归模型

Chapter 2：多元回归模型

一、经典线性回归模型的假定

在这一节中，我们将把回归模型由一元扩展到多元。多元回归分析允许在模型中加入多个可观测的因素，通过控制其他条件不变，分析不同的自变量对因变量的解释能力。首先，我们给出经典线性回归模型的基本假定的严格定义，分析在不同的假定条件下，OLS 估计量具有什么样的统计性质。

MLR.1 线性于参数

总体模型设定：

\[y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_kx_k+u , \]
其中 \(\beta_0,\beta_1,\cdots,\beta_k\) 是未知的待估参数，而 \(u\) 是无法观测的随机误差项。

上述方程是总体模型的规范化表述，此模型的一个重要特点是，它是参数 \(\beta_0,\beta_1,\cdots,\beta_k\) 的线性函数。该假定也是多元回归分析的模型设定。

MLR.2 随机抽样

有一个包含 \(n\) 次观测的随机样本 \(\{(x_{i1},x_{i2},\cdots,x_{ik},y_i):i=1,2,\cdots,n\}\) 来自总体模型。

我们可以对一次特定观测 \(i\) 写出其方程：

\[y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_kx_{ik}+u_i , \]

这里的 \(i\) 表示观测次数，\(x\) 的第二个下标表示变量的序号。

MLR.3 不存在完全共线性

在样本（总体）中，没有一个解释变量是常数，自变量之间也不存在严格的线性关系。

该假定允许解释变量之间存在相关关系，但不能是完全相关。如果存在完全共线性，则 OLS 方法将无法估计，这一点我们在多重共线性一章进行介绍。

MLR.4 零条件均值

给定解释变量的任何值，误差的期望值为零，即

\[{\rm E}(u\ |\ x_1,x_2,\cdots,x_k)=0 . \]

该假设不成立的情况：

被解释变量和解释变量之间的函数关系被错误设定
遗漏一个与 \(x_1,x_2,\cdots,x_k\) 中任何一个解释变量相关的解释变量
\(u\) 与一个解释变量相关（内生解释变量）

MLR.5 同方差性

给定解释变量的任何值，误差都具有相同的方差，即

\[{\rm Var}(u\ | \ x_1,x_2,\cdots,x_k)=\sigma^2 . \]

该假设意味着以解释变量为条件，不管解释变量出现怎样的组合，误差项 \(u\) 的方差都是一样的。违背该假定，模型将表现出异方差性，这一问题在截面数据中十分常见。

MLR.6 正态性

总体误差 \(u\) 独立于解释变量 \(x_1,x_2,\cdots,x_k\)，而且服从均值为 \(0\) 和方差为 \(\sigma^2\) 的正态分布：

\[u\sim N(0,\ \sigma^2) . \]

该假定是比前面任何一个假定都更强的假定。当我们以样本自变量的值为条件时，易知 OLS 估计量的抽样分布取决于其背后的误差 \(u\) 的分布。

定理总结

我们将假定 MLR.1 至 MLR.5 称为高斯-马尔科夫假定，将假定 MLR.1 至 MLR.6 称为经典线性回归模型的基本假定。在基本假定成立的前提条件下，OLS 估计量具有很多优良的统计性质：

在假定 MLR.1 至 MLR.4 下，OLS 估计量是具有无偏性。
在假定 MLR.1 至 MLR.5 下，OLS 估计量是具有有效性。
高斯-马尔科夫定理：在高斯-马尔科夫假定下，OLS 估计量是最优线性无偏估计量（BLUE）。

为了对上述定理进行推导，我们首先要引入一种分析多元回归模型偏效应的方法，即排除其他变量影响的方法。

二、排除其他变量影响的方法及其应用

Part 1：排除其他变量影响的方法

我们以 \(\beta_1\) 为例，控制其他变量的影响因素，分析 \(x_1\) 对 \(y\) 的偏效应。

step.1 将 \(x_1\) 对 \(x_2,x_3,...,x_k\) 进行回归，残差记为 \(\hat{r}_{i1}\) 。写成总体模型的形式如下：

\[x_1=\gamma_1+\gamma_2x_2+...+\gamma_kx_k+r_1 . \]

上述模型具有如下的统计性质：

\[{\rm E}(r_1)=0,\quad{\rm Cov}(x_j,\,r_1)=0,\quad j=2,3,\cdots,k , \]

该统计性质来源于多元回归模型的零条件均值假设，由该性质可以推出下面的性质：

\[{\rm Cov}(x_1,\ r_1)={\rm Var}(r_1^2) . \]

在一组观测样本中，我们可以用样本数据的形式表现上述性质：

\[\sum_{i=1}^n \hat{r}_{i1}=0 , \]

\[\sum_{i=1}^n x_{ij}\hat{r}_{i1}=0,\quad j=2,3,\cdots,k, \]

\[\sum_{i=1}^n x_{i1}\hat{r}_{i1}=\sum_{i=1}^n\hat{r}_{i1}^2 . \]

step.2 将 \(y\) 对 \(\hat{r}_1\) 做简单回归，模型可以写为：

\[y=\beta_0+\beta_1\hat{r}_1+\varepsilon . \]

根据简单回归模型的 OLS 计算公式，有

\[\hat\beta_1=\frac{\displaystyle\sum_{i=1}^n(\hat{r}_{i1}-\bar{\hat{r}}_1)(y_i-\bar{y})}{\displaystyle\sum_{i=1}^n(\hat{r}_{i1}-\bar{\hat{r}}_1)^2}=\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}y_i}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2} . \]

这样我们就求出来了 \(x_1\) 对 \(y\) 的偏效应，可以证明这里的 \(\hat\beta_1\) 和原模型 OLS 的估计结果完全相等，在这里就不进行推导。偏回归系数的估计为 OLS 估计量的性质的证明提供了新的思路。

Part 2：无偏性的证明

接下来我们利用排除其他变量影响的方法证明 OLS 估计下 \(\hat\beta_1\) 具有无偏性。:将多元线性模型的样本形式代入 \(\beta_1\) 的估计式中：

\[\hat\beta_1=\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}y_i}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2}=\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}(\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+...+\beta_kx_{ik}+u_i)}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2} , \]

根据 step.1 中的样本性质得出以下推论：

对于常数项 \(\beta_0\) 和 \(\hat{r}_{i1}\) 的乘积和，

\[\displaystyle\sum_{i=1}^n\beta_0\hat{r}_{i1}=\beta_0\cdot\displaystyle\sum_{i=1}^n\hat{r}_{i1}=0 . \]

对于偏效应 \(\beta_1\) 和 \(\hat{r}_{i1}\) 的乘积和，

\[\displaystyle\sum_{i=1}^n\beta_1x_{i1}\hat{r}_{i1}=\beta_1\cdot \sum_{i=1}^nx_{i1}\hat{r}_{i1}=\beta_1\cdot\sum_{i=1}^n\hat{r}_{i1}^2 . \]

对于被控制的其他偏效应和 \(\hat{r}_{i1}\) 的乘积和，

\[\displaystyle\sum_{i=1}^n\beta_jx_{ij}\hat{r}_{i1}=\beta_j\cdot\displaystyle\sum_{i=1}^nx_{ij}\hat{r}_{i1}=0 ,\quad j=2,3,...,k . \]

将上述三条推论代入 \(\beta_1\) 的估计式中可以得到：

\[\hat\beta_1=\frac{\beta_1\cdot\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2+\displaystyle\sum_{i=1}^n\hat{r}_{i1}u_i}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2}=\beta_1+\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}u_i}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2} . \]

这里唯一的随机变量就是总体回模型的随机误差项 \(u\) ，因此我们两边取数学期望得

\[{\rm E}(\hat\beta_1)=\beta_1+\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}\cdot {\rm E}(u_i)}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2}=\beta_1 . \]

由此便证明了 \(\hat\beta_1\) 是无偏估计量。

Part 3：估计量方差的计算

对所有的 \(j=1,2,...,k\)，都有

\[{\rm Var}(\hat\beta_j)=\frac{\sigma^2}{{\rm SST}_j(1-R^2_j)} , \]

其中， \({\rm SST}_j=\displaystyle\sum_{i=1}^n(x_{ij}-\bar{x}_j)^2\) ，是 \(x_j\) 的总样本波动； \(R_j^2\) 是 \(x_j\) 对其他解释变量做回归所得到的可决系数。

对于上述公式，我们还是利用排除其他变量影响的方法对 \(j=1\) 的情况进行证明：

\[{\rm Var}(\hat\beta_1)={\rm Var}\left(\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}u_i}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2}\right)=\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2\cdot {\rm Var}(u_i)}{\left(\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2\right)^2}=\frac{\sigma^2}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2} , \]

因为 \(\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2\) 是 \(x_1\) 对 \(x_2,x_3,...,x_k\) 做回归的残差平方和 \({\rm SSR}_1\) ，根据可决系数的定义，我们有

\[\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2={\rm SST}_j(1-R^2_j) , \]

代入即可证得

\[{\rm Var}(\hat\beta_1)=\frac{\sigma^2}{{\rm SST}_1(1-R^2_1)} . \]

Part 4：估计量方差的成份

在实证研究中 \({\rm Var}(\hat\beta_j)\) 的大小非常重要。方差越大，意味着估计量越不精确，即置信区间和假设检验越不准确。因此，讨论估计量方差的构成要素很有必要。这里我们将根据上述估计量方差的计算公式，分析估计量方差的成份及其影响因素。

(1) 误差方差 \(\sigma^2\)

这一点很好理解，\(\sigma^2\) 越大，方程中的“噪音”越多，OLS 估计量的方差越大，因此估计任何一个解释变量对 \(y\) 的偏效应就越困难。
需要注意的是 \(\sigma^2\) 是总体的一个特征，与样本容量无关。对于一个给定的因变量 \(y\) ，减小误差方差的唯一方法就是增加更多的解释变量，将某些可观测的因素从误差中分离出来。但在实际中这样做不仅很难实现，而且还不一定能够得出令人满意的结果。

(2) \(x_j\) 的总样本波动 \({\rm SST}_j\)

\(x_j\) 的总波动越大，\({\rm Var}(\hat\beta_j)\) 越小，因此在其他条件不变的情况下，我们希望 \(x_j\) 的样本方差越大越好。
当我们从总体中随机抽样时，我们可以通过扩大样本容量的方式，提高自变量的样本波动，即增大 \({\rm SST}_j\) 。

(3) 自变量之间的线性关系 \(R_j^2\)

随着 \(R_j^2\) 向 1 逐渐增加，\({\rm Var}(\hat\beta_j)\) 越来越大。
当模型中出现多重共线性问题时， \(R_j^2\) 接近于 \(1\) 但并不违背假设 MLR.3 。
在所有其他条件不变的情况下，就估计 \(\beta_j\) 而言，\(x_j\) 与其他自变量之间越不相关越好。

三、多元线性回归的假设检验

Part 1：估计量的抽样分布

利用假定 MLR.1 至 MLR.5 ，我们可以证明多元回归模型 OLS 估计量的无偏性并计算了 OLS 估计量的方差，再写一次结论：

\[{\rm E}(\hat\beta_j)=\beta_j ,\quad {\rm Var}(\hat\beta_j)=\frac{\sigma^2}{{\rm SST}_j(1-R^2_j)} , \]

和简单回归模型的情况类似，在满足正态性假设 MLR.6 的前提下，我们可以得到 OLS 估计量 \(\hat\beta_j\) 的统计分布：

\[\hat\beta_j \sim N\left(\beta_j,\,\frac{\sigma^2}{{\rm SST}_j(1-R_j^2)}\right) . \]

并且只有在满足正态性假设 MLR.6 的前提下，才可以进行假设检验和区间估计。但我们也会面临同样的问题，即当我们不知道随机误差项的标准差 \(\sigma\) 时，我们也无法得到 \(\hat\beta_j\) 的标准差。因此我们需要用 \(\hat\sigma\) 代替 \(\sigma\) 从而计算 \(\hat\beta_j\) 标准误，用来代替 \(\hat\beta_j\) 的标准差：

\[\sigma \to \hat\sigma ,\quad {\rm sd}(\hat\beta_j)\to{\rm se}(\hat\beta_j) . \]

在一般的多元回归模型中，\(\sigma^2\) 的无偏估计量是

\[\hat\sigma^2=\frac{\sum_\limits{i=1}^ne_i^2}{n-k-1}=\frac{\rm SSR}{n-k-1} . \]

这里的 \(n-k-1\) 实际上是 \({\rm SSR}\) 的*度 \(df\) ，严格上需要证明定理： \({\rm E}({\rm SSR})=(n-k-1)\sigma^2\) 。这个定理需要用到矩阵代数的知识，我们在矩阵形式的部分进行推导。

由此我们便可得到 \(\hat\beta_j\) 的标准误为

\[{\rm se}(\hat\beta_j)={\frac{\hat\sigma}{\sqrt{{\rm SST}_j(1-R_j^2)}}} , \]

一般地，在实证研究的回归结果中，汇报标准误比 \(t\) 统计量要更为常见。

Part 2：变量的显著性检验

变量的显著性检验和一元模型相同，差别在于 \(t\) 统计量的*度不再是 \(n-2\) ，而是 \(n-k-1\) ，与解释变量个数相关。

提出假设：

\[H_0:\beta_j=0 \ \longleftrightarrow \ H_1:\beta_j \neq 0 , \]

构造 \(t\) 统计量：

\[T=\frac{\hat{\beta}_j -\beta_j}{{\rm se}(\hat{\beta}_j)}\sim t(n-k-1) , \]

给定显著性水平 \(\alpha\)，如果

\[|T|>t_{\alpha/2}(n-k-1) , \]

则称 \(t\) 统计量在 \(\alpha\) 的显著性水平下显著，拒绝原假设。

同样可以计算出 \(\beta_j\) 的置信区间为：

\[\hat{\beta}_j -t_{\alpha/2} \cdot {\rm se}(\hat{\beta}_j) \leq \beta_j \leq \hat{\beta}_j+t_{\alpha/2} \cdot {\rm se}(\hat{\beta}_j) . \]

四、受约束回归检验

Part 1：联合假设检验

通过构造 \(t\) 统计量，我们可以判断单一解释变量对因变量是否具有显著性的影响，也可称之为单个约束的检验。但是在多元回归模型中，我们想要检验的往往是一组变量的系数是否显著为 \(0\)，或者还有更复杂的约束条件，例如比较几个变量的系数是否相等，两个变量的系数相加是否为 \(1\) 等等。我们称之为多重约束，对多重约束进行的检验被称为联合假设检验。

首先定义一下英文缩写 \(r\) 和 \(ur\) 的含义：受约束模型为 restricted model ，无约束模型为 unrestricted model。因此我们用下标 \(r\) 和 \(ur\) 对统计量加以区分。例如 \({\rm SSR}_r\) 为受约束回归的残差平方和，\({\rm SSR}_{ur}\) 为无约束回归的残差平方和，其他统计量同理。

一般地，受约束回归模型的解释力下降，因此 \({\rm SSR}_{r}>{\rm SSR}_{ur}\) ，但*度会下降。

提出原假设 \(H_0\) ：约束条件为真。

构造 \(F\) 统计量：

\[F=\frac{({\rm SSR}_r-{\rm SSR}_{ur})/(k_{ur}-k_r)}{{\rm SSR}_{ur}/(n-k_{ur}-1)}\sim F(k_{ur}-k_r,\,n-k_{ur}-1) , \]

这里的 \(k_{ur}\) 和 \(k_r\) 分别是两个回归模型中不含常数项的解释变量个数。

联想到可决系数 \(R^2\) 的定义，我们也可以通过受约束回归和无约束回归的可决系数来计算 \(F\) 统计量：

\[F=\frac{(R^2_{ur}-R^2_r)/(k_{ur}-k_r)}{(1-R^2_{ur})/(n-k_{ur}-1)}\sim F(k_{ur}-k_r,\,n-k_{ur}-1) . \]

我们看两个受约束回归检验的典型应用场景。

Part 2：方程的显著性检验

对于多元回归模型

\[y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_kx_k+u , \]

我们想要检验这个回归方程是否有存在的意义，如果 \(\beta_1=\beta_2=\cdots=\beta_k=0\) ，那我们的回归显然是毫无作用，相当于什么都没有做过。对此我们可以利用受约束回归检验的方法来检验方程的显著性。

我们将原回归模型视为无约束模型，其中解释变量的个数为 \(k_{ur}=k\) ，残差平方和就是 \({\rm SSR}\) 。

提出原假设（即约束条件）：

\[H_0:\beta_1=\beta_2=\cdots=\beta_k=0 , \]

此时的受约束模型为：

\[y=\beta_0+u , \]

易知此时 \(\beta_0={\rm E}(y)\) ，因此有 \(\hat\beta_0=\bar{y}\) ，所以受约束模型的残差平方和 \({\rm SSR}_{r}\) 就是总平方和 \({\rm SST}\) 。

构造 \(F\) 统计量为

\[F=\frac{{\rm SSE}/k}{{\rm SSR}/(n-k-1)}\sim F(k,\,n-k-1) . \]

注意 \(F\) 检验是单边检验： \(F>F_{\alpha}(k,\,n-k-1)\) 。

写成 \(R^2\) 的形式为：

\[F=\frac{R^2/k}{(1-R^2)/(n-k-1)}\sim F(k,\,n-k-1) . \]

Part 3：变量的排除性约束检验

变量的排除性约束检验，主要考虑的是某个或某些解释变量是否需要被排除在模型之外。即检验系数是否联合显著为 \(0\) 。利用受约束回归检验，我们可以同时检验多个变量是否同时不显著。假设我们要检验 \(q\) 个解释变量 \(x_{k+1},\cdots,x_{k+q}\) 是否需要被加入模型中，检验过程如下：

受约束模型：

\[y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_kx_k+u , \]

无约束模型：

\[y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_kx_k+\beta_{k+1}x_{k+1}+\cdots+\beta_{k+q}x_{k+q}+u , \]

假设检验：

\[H_0:\beta_{k+1}=\beta_{k+2}=\cdots=\beta_{k+q}=0 . \]

构造 \(F\) 统计量：

\[F=\frac{({\rm SSR}_r-{\rm SSR}_{ur})/q}{{\rm SSR}_{ur}/(n-k-q-1)}\sim F(q,\,n-k-q-1) . \]

写成 \(R^2\) 的形式：

\[F=\frac{(R^2_{ur}-R^2_r)/q}{(1-R^2_{ur})/(n-k-q-1)} . \]

五、调整的可决系数

回顾一下可决系数的定义：

\[R^2=\frac{\rm SSE}{\rm SST}=\frac{\rm SST-SSR}{\rm SST}=1-\frac{\rm SSR}{\rm SST} . \]

我们定义可决系数 \(R^2\) 是为了衡量了因变量 \(y\) 的样本波动中能被自变量解释的部分的多少，但是在应用过程中我们会发现，如果在模型中增加一个解释变量， \(R^2\) 往往会增大。这就给人一个错觉：要使得模型拟合得好，只要增加解释变量即可。这样基于 \(R^2\) 的大小选择一组拟合程度更高的解释变量可能会导致一些不合理的模型的出现。因此，我们需要对增加的自变量施加惩罚，于是引入了调整的可决系数。定义如下：

\[\overline{R}^2=1-\frac{SSR/(n-k-1)}{SST/(n-1)} , \]

可以计算得到 \(R^2\) 和 \(\overline{R}^2\) 的关系为：

\[\overline{R}^2=1-(1-R^2)\frac{n-1}{n-k-1} , \]

需要注意，可决系数 \(R^2\) 必定非负，但调整的可决系数 \(\overline{R}^2\) 可能为负值。

秒客网

计量经济学导论02：多元回归模型