文件名称:逐步回归-智能电网\物联网技术在智能电网的应用
文件大小:11.99MB
文件格式:PDF
更新时间:2024-07-30 04:05:26
数学建模
4.2 逐步回归 实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来 建立回归模型,这就涉及到变量选择的问题,逐步回归是一种从众多变量中有效地选择 重要变量的方法。以下只讨论线性回归模型(1)式的情况。 变量选择的标准,简单地说就是所有对因变量影响显著的变量都应选入模型,而影 响不显著的变量都不应选入模型,从便于应用的角度应使模型中变量个数尽可能少。 若候选的自变量集合为 },,{ 1 mxxS L= ,从中选出一个子集 SS ⊂1 ,设 1S 中有 l 个自变量 ),,1( ml L= ,由 1S 和因变量 y 构造的回归模型的误差平方和为Q,则模型 的剩余标准差的平方 1 2 −− = ln Q s ,n 为数据样本容量。所选子集 1S 应使 s 尽量小, 通常回归模型中包含的自变量越多,误差平方和Q越小,但若模型中包含有对 y 影响 很小的变量,那么Q不会由于包含这些变量在内而减少多少, 却因 l 的增加可能使 s 反 而增大,同时这些对 y 影响不显著的变量也会影响模型的稳定性,因此可将剩余标准 差 s 小作为衡量变量选择的一个数量标准。 逐步回归是实现变量选择的一种方法,基本思路为,先确定一初始子集,然后每次 从子集外影响显著的变量中引入一个对 y 影响 大的,再对原来子集中的变量进行检 验,从变得不显著的变量中剔除一个影响 小的,直到不能引入和剔除为止。使用逐步 回归有两点值得注意,一是要适当地选定引入变量的显著性水平 inα 和剔除变量的显著 性水平 outα ,显然, inα 越大,引入的变量越多; outα 越大,剔除的变量越少。二是由 于各个变量之间的相关性,一个新的变量引入后,会使原来认为显著的某个变量变得不 显著,从而被剔除,所以在 初选择变量时应尽量选择相互独立性强的那些。 在Matlab统计工具箱中用作逐步回归的是命令stepwise,它提供了一个交互式画 面,通过这个工具你可以*地选择变量,进行统计分析,其通常用法是: stepwise(x,y,inmodel,alpha) 其中x是自变量数据,y是因变量数据,分别为 mn × 和 1×n 矩阵,inmodel是矩阵x的 列数的指标,给出初始模型中包括的子集(缺省时设定为空),alpha为显著性水平。 Stepwise Regression 窗口,显示回归系数及其置信区间,和其它一些统计量的信 息。绿色表明在模型中的变量,红色表明从模型中移去的变量。在这个窗口中有Export 按钮,点击Export产生一个菜单,表明了要传送给Matlab工作区的参数,它们给出了统 计计算的一些结果。 下面通过一个例子说明stepwise的用法。 例5 水泥凝固时放出的热量 y 与水泥中4种化学成分 4321 ,,, xxxx 有关,今测得一 组数据如表5,试用逐步回归来确定一个线性模型 表5 序号 1x 2x 3x 4x y 1 7 26 6 60 78.5 2 1 29 15 52 74.3 3 11 56 8 20 104.3 4 11 31 8 47 87.6 5 7 52 6 33 95.9