应用回归分析之岭回归(Ridge Regression,RR)

时间:2024-03-30 07:52:48

一、岭回归估计的定义

1.1普通最小二乘法带来的问题

当自变量间存在复共线性时,回归系数估计的方差就会很大,从而导致估计值不稳定

1.2岭回归的定义

岭回归(Ridge Regression,RR),当自变量之间存在复共线性时,应用回归分析之岭回归(Ridge Regression,RR)约等于0,给应用回归分析之岭回归(Ridge Regression,RR)加上一个正常数矩阵应用回归分析之岭回归(Ridge Regression,RR),(应用回归分析之岭回归(Ridge Regression,RR)),那么应用回归分析之岭回归(Ridge Regression,RR)接近奇异的程度就会比应用回归分析之岭回归(Ridge Regression,RR)小的多,考虑到变量的量纲问题,先对数据做标准化处理,标准化后的矩阵仍然用X表示,称

应用回归分析之岭回归(Ridge Regression,RR)

应用回归分析之岭回归(Ridge Regression,RR)的岭回归估计,k为岭参数,由于假设X已经标准化,所以应用回归分析之岭回归(Ridge Regression,RR)就是自变量样本的相关矩阵,上式计算的实际上是标准的岭回归估计,而因变量y可以经过标准化,也可以未经过标准化。当应用回归分析之岭回归(Ridge Regression,RR)的估计,就是最小二乘估计,但是岭回归估计比最小二乘估计更为稳定。但是要注意,参数应用回归分析之岭回归(Ridge Regression,RR)的选取不是唯一的,因此得到的岭回归估计值应用回归分析之岭回归(Ridge Regression,RR)实际上是回归参数应用回归分析之岭回归(Ridge Regression,RR)的估计簇。

二、岭回归估计的性质

假设因变量y未经过标准化

性质一:应用回归分析之岭回归(Ridge Regression,RR)是参数应用回归分析之岭回归(Ridge Regression,RR)的有偏估计

性质二:在认为岭参数k是与y无关的常数时,应用回归分析之岭回归(Ridge Regression,RR)是最小二乘估计应用回归分析之岭回归(Ridge Regression,RR)的一个线性变换,也就是y的线性函数。

性质三:对任意k>0,应用回归分析之岭回归(Ridge Regression,RR)不等于0,总有,应用回归分析之岭回归(Ridge Regression,RR)

性质四:以MSE表示估计向量的均方误差,则存在k>0,使得应用回归分析之岭回归(Ridge Regression,RR)

三、岭迹分析

当参数k在(0,+∞)变化时,应用回归分析之岭回归(Ridge Regression,RR)是k的函数,在平面直角坐标系中,将应用回归分析之岭回归(Ridge Regression,RR)随k的轨迹画出来,称该轨迹为岭迹。可以根据岭迹曲线的变化,来确定适当的k值和进行自变量的选择,可以用来判断各自变量的作用和相互关系。下图展示了几个典型的岭迹曲线

应用回归分析之岭回归(Ridge Regression,RR)

四、岭参数k的选择

4.1岭迹法

岭迹法选择k值的一般原则是:
(1)各回归系数的岭估计基本稳定;
(2)用最小二乘估计时符号不合理的回归系数,其岭估
计的符号变得合理;
(3)回归系数没有不合乎经济意义的绝对值;
(4)残差平方和增大不太多。

4.2方差扩大因子法

方差扩大(膨胀)因子表明了多重共线性的严重程度,计算岭估计应用回归分析之岭回归(Ridge Regression,RR)协方差矩阵

应用回归分析之岭回归(Ridge Regression,RR)

               应用回归分析之岭回归(Ridge Regression,RR)

               应用回归分析之岭回归(Ridge Regression,RR)

               应用回归分析之岭回归(Ridge Regression,RR)

上式中,矩阵应用回归分析之岭回归(Ridge Regression,RR)的主对角元应用回归分析之岭回归(Ridge Regression,RR)就是岭估计的方差膨胀因子,应用回归分析之岭回归(Ridge Regression,RR)随着k的增大而减少。

选择k,使得所有方差扩大因子应用回归分析之岭回归(Ridge Regression,RR)≤10

4.3由残差平方和确定k值

岭估计减少了均方误差,但增大了残差平方和,将岭估计的残差平方和SSE(k)的增加幅度控制在一定范围内,给定一个大于1的c值,使得

应用回归分析之岭回归(Ridge Regression,RR)应用回归分析之岭回归(Ridge Regression,RR)

寻找使得上式成立的最大k值

五、用岭回归选择变量

岭回归选择变量的原则:
(1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。
(2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。
(3)剔除标准化岭回归系数很不稳定的自变量.如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。