【数学建模】day08-数理统计III

2. 回归分析

回归分析与曲线拟合区分。

曲线拟合是，根据得到的若干有关变量的一组数据，寻找因变量与（一个或几个）自变量之间的一个函数，使这个函数对那组数据拟合得好。通常，函数的形式可以由经验、先验知识或对数据的直观观察决定，要作的工作是由数据用小二乘法计算函数中的待定系数。

但是，从数理统计的观点看，这里涉及的都是随机变量，我们根据一个样本计算出的那些系数，只是它们的一个（点）估计，应该对它们作区间估计或假设检验，如果置信区间太大，甚至包含了零点，那么系数的估计值是没有多大意义的。可以用方差分析方法对模型的误差进行分析，对拟合的优劣给出评价。

简而言之：回归分析就是对拟合问题作的统计分析。

1）必备的知识（重点）

数理统计样本方差，样本均值、期望、方差、k阶矩、k阶中心距的概念。

数据的标准化处理：

2）一元线性回归

1. 用最小二乘法求出回归系数（即回归方程的待定系数）。

2. 拟合效果分析

看以下几个标度：

a. 残差的样本方差（标准差）

拟合方程求出的y与真实的y之差叫残差。求这个残差的方差。越小越精确。

b. 判定系数（拟合优度）

建立一元线性回归模型的目的，就是试图以x 的线性函数来解释 y 的变异。

->求样本的y的方差，记做SST：

->求回归方程求出的y估的方差，记做SSR：

->SSE = SST - SSR，即为残差平方和：

->可以看到: SSE = SST - SSR; dfT = dfR + dfE;

从上式可以看出，y 的变异是由两方面的原因引起的；一是由于x 的取值不同，而给 y 带来的系统性变异；另一个是由除 x以外的其它因素的影响。

也就是说：

从而，可以指定判定如下：

定义一个测量标准来说明回归方程对原始数据的拟合程度，这就是所谓的判定系数，有些文献上也称之为拟合优度。

3. 显著性检验:回归方程的假设检验

一元线性回归，我们假设的是y和x是线性关系，但这个线性关系的假定是否靠谱，还要进行显著性检验。

换句话说，β1系数就是线性程度，若β1趋向0，则线性关系不显著。

假设检验：

H0：β1 = 0；

H1：β1 ≠ 0；

检验统计量（推导见课本）：

传统检验，若接受H0，则线性关系不显著。

一般地，回归方程的假设检验包括两个方面：一个是对模型的检验，即检验自变量与因变量之间的关系能否用一个线性模型来表示，这是由F 检验来完成的；另一个检验是关于回归参数的检验，即当模型检验通过后，还要具体检验每一个自变量对因变量的影响程度是否显著。这就是下面要讨论的t检验。在一元线性分析中，由于自变量的个数只有一个，这两种检验是统一的，它们的效果完全是等价的。但是，在多元线性回归分析中，这两个检验的意义是不同的。从逻辑上说，一般常在F 检验通过后，再进一步进行t检验

4. 回归系数的显著性检验

回归参数的检验是考察每一个自变量对因变量的影响是否显著。换句话说，就是要检验每一个总体参数是否显著不为零。

也就是说，若某一个回归系数接近0，那么这个对应的变量对y的影响就是不显著的。我们对每一个回归系数进行是否等于0的假设检验，得到显著性分析。

对于每一个βi，检验：

H0：βi = 0；

H1：βi ≠ 0；

检验统计量为：

决策为：

5. 利用回归方程进行预测

这里有点估计、区间估计。

点预测代数即可。

区间预测比较复杂，用到需要查阅。

===

总结回归分析的步骤：

step1：

　　给定回归形式（这由经验、先验等得到），以最小二乘拟合等方法得到回归方程的系数

step2：拟合效果分析：这一步检验拟合的效果如何，即回归方程能否比较好的解释y随x的变化。有两个指标需要计算和检验。

　　a. 检验残差的样本方差。

　　　　求残差样本均值，对每一对数据得到的残差(ei = yi - yi估)进而求样本方差MSE。MSE应当小，这样残差变化不大，反应我们的映射是可以的。

　　b. 检验判定系数：拟合优度检验

　　　　仅仅得到残差变化不大，是说明在拟合点处做的可以。但我们还要直到拟合的精度怎么样？也就是说，仅仅知道残差变化不大是不够的，还要具体的知道拟合的精度。

　　　　求SST 是原始数据yi的总变异平方和。

　　　　求SSR 是拟合数据yi估的总变异平方和。

　　　　SSE = SST –SSR 是残差平方和。

　　　　这说明。SST = SSE + SSR。原始数据的变异由两部分解释：一个是我们的拟合，即来自x的影响，另一个是残差，即来自随机误差。

　　　　判定系数R^2 = SSR /SST。即来自x对y的变异影响占y总变异影响的比重。

　　　　R^2应接近于1.

STEP3：显著性检验：上面的假设是给定了回归方程形式，但这个形式靠谱不靠谱还是需要检验的。分两步，F检验和t检验。

　　　a. F检验

　　　　检验回归模型的方程形式是否靠谱。

　　　　求SSR，SSE。F = （SSR/1）/ (SSE/(n-2)) 服从F(1,n-2)分布。

　　　　记：yi关于xi的总体回归系数是βi。

　　　　检验H0 ：βi= 0；

　　　　根据F检验。若拒绝H0，则通过了F检验，也就是说拥有给定回归关系是显著的。

　　　　

　　b. t检验

　　　　给定回归方程形式中有许多的回归系数，这些系数反映了各自对应的变量x对y的影响如何。但这个影响是否是显著的　　　　呢？就是说若回归系数近似为0，则该变量其实对目标y没有什么影响。这里需要t检验，检验每一个回归系数。

　　　　对系数构造统计量（查阅）服从t(n-2)，检验：

　　　　H0： βi = 0

　　　　检验若落在拒绝域，则拒绝H0，通过了t检验。

　　综上，检验结束。

MATLAB中提供的几种回归形式：

（多元线性、高次（多元二次、一元多项式））

MATLAB中的多元线性回归：

形式：

函数：b = regress(Y,X)

param:

　　Y，X按照下列排列：

　　　　\

return：

　　返回相应形式的系数β。

函数：[b,bint,r,rint,stats]=regress(Y,X,alpha)

param：

　　这里指定检验的显著性水平alpha。

return：

　　b和bint是系数的估计值以及1-alpha置信区间。

　　r和rint是残差（向量）以及其置信区间。

　　stats：是四个量，用于检验的统计量都给计算出了。

　　　　第一个值是R^2，第二个值是F，第三个值是与F对应的概率p(p小于alpha则拒绝H0)，第四个是残差的方差S^2.（S称作剩余标准差）

【判定标准：先看S^2要小，再看判定系数R^2是y估的变异占y的变异比重，接近于1；再看F和p，F要大于对应F分布的上α分位点，p要大于显著性阿尔法，则通过了回归形式的检验；有必要还要再看每一个参数的t检验，即拒接t检验H0，这里t参数要自己算（下面举例子）】

残差及其置信区间可以用rcoplot(r,rint)画图。

MATLAB中的多元二项式回归：

函数：rstool(x,y,model,alpha):

param：

　　x：是n*m的矩阵，每一行是一条数据，行数是样例数

　　y: n维向量

　　alpha:显著性水平

　　model：取下列值

　　

这个函数会得到拟合的交互式画面。会显示其他变量固定时，另一个变量的的置信区间。另外可以手动改变固定值。

并且，可以保存系数、残差向量、剩余标准差（残差的方差开根号）

MATLAB中的一元多项式回归:

就是拟合的ployfit命令

[p,s]=polyfit(x0,y0,n); p

param：

　　x0，y0即拟合的点

　　n：要拟合的多项式次数

return：

　　p：系数矩阵，按次数从高到低排列

　　s：数据结构，用来计算函数值以及置信区间

[y,delta] = polyconf(p,x0,s)

param:

　　p是系数矩阵

　　x0是要计算的点

　　s：polyfit的返回参数s

return：

　　y：拟合值

　　delta:置信区间半径

图形画面工具箱命令：polytool（x0,y0,n）：

得到交互式画面，显示拟合曲线以及两条红线，表示置信上限和下限，如：

偏相关系数：又称作净相关系数，不考虑其他，只考虑一个xi与y的相关程度。（偏相关系数的检验）

->重点：变量筛选

变量筛选是建立简单回归分析模型所最常使用的方法，这个在简单回归模型中最重要，之后可以再采取高级的偏最小二乘回归分析等方法。

直接指定一个回归形式并使用所有变量进行多元回归，是过于武断的，这样的效果往往不好。

选择自变量时，一方面希望不遗漏重要的解释变量；另一方面希望参数尽量少，以降低模型复杂度。假设有m组数据，选定自变量数m。有效的方差有向前选择（逐渐增加变量）、向后选择（逐渐减少变量）和逐步回归法（结合上述）。

首先必须学习偏F检验的基本知识。

在决定一个新的变量是否有必要进入模型，或者判断某个变量是否可以从模型中删除时，我们首先要问的问题是：这个变量能否对 y 提供显著的附加解释信息？回答这个问题的方法是采用偏F 检验。

偏F检验规则：

为此进行△Rj方的假设检验：

检验统计量为：

式中， Qj 是减模型的残差平方和，Q为全模型的残差平方和。

Fj服从F分布。

决策为：

若拒绝H0，则引入该变量。否则不引入。

方法1：向前选择变量法

方法2：向后选择变量法

方法3：逐步回归

写作时需要说明为什么要用逐步回归：

边退边进的逐步回归方法：

调整复判定系数：

MATLAB逐步回归命令：

stepwise（x,y,inmodel,alpha）：只能进行多元线性模型

param：

　　x，y：n*m和n*1，n条数据

　　inmodel：矩阵x列数的指标，给出初始模型中包括的子集（模型开始时已经选中的变量）。（缺省为空）

　　alpha：显著性水平

　　

return：

　　逐步回归界面。在界面上进行一系列分析和工作。

一个向前选择变量、向后选择变量分析的例子（注意函数的套用，以及分析的语言说明）：

最后，在说一个非线性回归。

非线性回归并不是目标y对变量x的非线性，而是对回归系数而言的非线性。

Matlab统计工具箱中的nlinfit，nlparci，nlpredci，nlintool，不仅给出拟合的回归系数，而且可以给出它的置信区间，及预测值和置信区间等。给一个例子，具体用到要查阅函数手册以及套用相关函数。

这些函数都是产生交互式界面，export可以传出相关指标如剩余标准差。

其他没有阅读的：

§7 复共线性与有偏估计方法

前面我们详细讨论了回归系数的小二乘估计，并且证明了它的许多优良性质。随着电子计算机技术的飞速发展，人们愈来愈多地有能力去处理含较多回归自变量的大型回归问题。许多应用实践表明，在这些大型线性回归问题中，小二乘估计不是总令人满意。例如，有时某些回归系数的估计值的绝对值差异较大，有时回归系数的估计值的符号与问题的实际意义相违背等。研究结果表明，产生这些问题的原因之一是回归自变量之间存在着近似线性关系，称为复共线性（Multicollinearity）。

§8 岭回归以及检验

用到查阅吧。

秒客网

【数学建模】day08-数理统计III

相关文章