【文件属性】:
文件名称:逐步回归-智能电网\物联网技术在智能电网的应用
文件大小:11.99MB
文件格式:PDF
更新时间:2021-07-10 10:18:46
数学建模
4.2 逐步回归
实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来
建立回归模型,这就涉及到变量选择的问题,逐步回归是一种从众多变量中有效地选择
重要变量的方法。以下只讨论线性回归模型(1)式的情况。
变量选择的标准,简单地说就是所有对因变量影响显著的变量都应选入模型,而影
响不显著的变量都不应选入模型,从便于应用的角度应使模型中变量个数尽可能少。
若候选的自变量集合为 },,{ 1 mxxS L= ,从中选出一个子集 SS ⊂1 ,设 1S 中有 l
个自变量 ),,1( ml L= ,由 1S 和因变量 y 构造的回归模型的误差平方和为Q,则模型
的剩余标准差的平方
1
2
−−
=
ln
Q
s ,n 为数据样本容量。所选子集 1S 应使 s 尽量小,
通常回归模型中包含的自变量越多,误差平方和Q越小,但若模型中包含有对 y 影响
很小的变量,那么Q不会由于包含这些变量在内而减少多少, 却因 l 的增加可能使 s 反
而增大,同时这些对 y 影响不显著的变量也会影响模型的稳定性,因此可将剩余标准
差 s 小作为衡量变量选择的一个数量标准。
逐步回归是实现变量选择的一种方法,基本思路为,先确定一初始子集,然后每次
从子集外影响显著的变量中引入一个对 y 影响 大的,再对原来子集中的变量进行检
验,从变得不显著的变量中剔除一个影响 小的,直到不能引入和剔除为止。使用逐步
回归有两点值得注意,一是要适当地选定引入变量的显著性水平 inα 和剔除变量的显著
性水平 outα ,显然, inα 越大,引入的变量越多; outα 越大,剔除的变量越少。二是由
于各个变量之间的相关性,一个新的变量引入后,会使原来认为显著的某个变量变得不
显著,从而被剔除,所以在 初选择变量时应尽量选择相互独立性强的那些。
在Matlab统计工具箱中用作逐步回归的是命令stepwise,它提供了一个交互式画
面,通过这个工具你可以*地选择变量,进行统计分析,其通常用法是:
stepwise(x,y,inmodel,alpha)
其中x是自变量数据,y是因变量数据,分别为 mn × 和 1×n 矩阵,inmodel是矩阵x的
列数的指标,给出初始模型中包括的子集(缺省时设定为空),alpha为显著性水平。
Stepwise Regression 窗口,显示回归系数及其置信区间,和其它一些统计量的信
息。绿色表明在模型中的变量,红色表明从模型中移去的变量。在这个窗口中有Export
按钮,点击Export产生一个菜单,表明了要传送给Matlab工作区的参数,它们给出了统
计计算的一些结果。
下面通过一个例子说明stepwise的用法。
例5 水泥凝固时放出的热量 y 与水泥中4种化学成分 4321 ,,, xxxx 有关,今测得一
组数据如表5,试用逐步回归来确定一个线性模型
表5
序号 1x 2x 3x 4x y
1 7 26 6 60 78.5
2 1 29 15 52 74.3
3 11 56 8 20 104.3
4 11 31 8 47 87.6
5 7 52 6 33 95.9