回归分析—岭回归(Ridge Regression)正则化

时间:2024-03-31 13:56:01

1.过拟合

当样本特征很多,样本数相对较少时,模型容易陷入过拟合。为了缓解过拟合问题,有两种方法:
方法一:减少特征数量(人工选择重要特征来保留,会丢弃部分信息)。
方法二:正则化(减少特征参数w ^的数量级)。

2.正则化(Regularization)

正则化是结构风险(损失函数+正则化项)最小化策略的体现,是在经验风险(平均损失函数)上加一个正则化项。正则化的作用就是选择经验风险和模型复杂度同时较小的模型。

防止过拟合的原理:正则化项一般是模型复杂度的单调递增函数,而经验风险负责最小化误差,使模型偏差尽可能小经验风险越小,模型越复杂,正则化项的值越大。要使正则化项也很小,那么模型复杂程度受到限制,因此就能有效地防止过拟合。

3.线性回归正则化

正则化一般具有如下形式的优化目标:
回归分析—岭回归(Ridge Regression)正则化
回归分析—岭回归(Ridge Regression)正则化
我们考虑最简单的线性回归模型。
回归分析—岭回归(Ridge Regression)正则化
(1)L2范数正则化(Ridge Regression,岭回归)
代价函数为:
回归分析—岭回归(Ridge Regression)正则化
(2)L1范数正则化(LASSO,Least Absoulute Shrinkage and Selection Operator,最小绝对收缩选择算子)

代价函数为:

回归分析—岭回归(Ridge Regression)正则化
回归分析—岭回归(Ridge Regression)正则化
(3)L1正则项L2正则项结合(Elastic Net)
回归分析—岭回归(Ridge Regression)正则化
回归分析—岭回归(Ridge Regression)正则化

4.岭回归求解

岭回归不抛弃任何一个特征,缩小了回归系数。

岭回归求解与一般线性回归一致。
(1)如果采用梯度下降法:
回归分析—岭回归(Ridge Regression)正则化
迭代公式如下:

回归分析—岭回归(Ridge Regression)正则化
(2)如果采用正规方程:
回归分析—岭回归(Ridge Regression)正则化
回归分析—岭回归(Ridge Regression)正则化

范数

回归分析—岭回归(Ridge Regression)正则化