一、岭回归估计的定义
1.1普通最小二乘法带来的问题
当自变量间存在复共线性时,回归系数估计的方差就会很大,从而导致估计值不稳定
1.2岭回归的定义
岭回归(Ridge Regression,RR),当自变量之间存在复共线性时,约等于0,给加上一个正常数矩阵,(),那么接近奇异的程度就会比小的多,考虑到变量的量纲问题,先对数据做标准化处理,标准化后的矩阵仍然用X表示,称
为的岭回归估计,k为岭参数,由于假设X已经标准化,所以就是自变量样本的相关矩阵,上式计算的实际上是标准的岭回归估计,而因变量y可以经过标准化,也可以未经过标准化。当的估计,就是最小二乘估计,但是岭回归估计比最小二乘估计更为稳定。但是要注意,参数的选取不是唯一的,因此得到的岭回归估计值实际上是回归参数的估计簇。
二、岭回归估计的性质
假设因变量y未经过标准化
性质一:是参数的有偏估计
性质二:在认为岭参数k是与y无关的常数时,是最小二乘估计的一个线性变换,也就是y的线性函数。
性质三:对任意k>0,不等于0,总有,
性质四:以MSE表示估计向量的均方误差,则存在k>0,使得
三、岭迹分析
当参数k在(0,+∞)变化时,是k的函数,在平面直角坐标系中,将随k的轨迹画出来,称该轨迹为岭迹。可以根据岭迹曲线的变化,来确定适当的k值和进行自变量的选择,可以用来判断各自变量的作用和相互关系。下图展示了几个典型的岭迹曲线
四、岭参数k的选择
4.1岭迹法
岭迹法选择k值的一般原则是:
(1)各回归系数的岭估计基本稳定;
(2)用最小二乘估计时符号不合理的回归系数,其岭估
计的符号变得合理;
(3)回归系数没有不合乎经济意义的绝对值;
(4)残差平方和增大不太多。
4.2方差扩大因子法
方差扩大(膨胀)因子表明了多重共线性的严重程度,计算岭估计协方差矩阵
上式中,矩阵的主对角元就是岭估计的方差膨胀因子,随着k的增大而减少。
选择k,使得所有方差扩大因子≤10
4.3由残差平方和确定k值
岭估计减少了均方误差,但增大了残差平方和,将岭估计的残差平方和SSE(k)的增加幅度控制在一定范围内,给定一个大于1的c值,使得
寻找使得上式成立的最大k值
五、用岭回归选择变量
岭回归选择变量的原则:
(1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。
(2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。
(3)剔除标准化岭回归系数很不稳定的自变量.如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。