1.过拟合
当样本特征很多,样本数相对较少时,模型容易陷入过拟合。为了缓解过拟合问题,有两种方法:
方法一:减少特征数量(人工选择重要特征来保留,会丢弃部分信息)。
方法二:正则化(减少特征参数w ^的数量级)。
2.正则化(Regularization)
正则化是结构风险(损失函数+正则化项)最小化策略的体现,是在经验风险(平均损失函数)上加一个正则化项。正则化的作用就是选择经验风险和模型复杂度同时较小的模型。
防止过拟合的原理:正则化项一般是模型复杂度的单调递增函数,而经验风险负责最小化误差,使模型偏差尽可能小经验风险越小,模型越复杂,正则化项的值越大。要使正则化项也很小,那么模型复杂程度受到限制,因此就能有效地防止过拟合。
3.线性回归正则化
正则化一般具有如下形式的优化目标:
我们考虑最简单的线性回归模型。
(1)L2范数正则化(Ridge Regression,岭回归)
代价函数为:
(2)L1范数正则化(LASSO,Least Absoulute Shrinkage and Selection Operator,最小绝对收缩选择算子)
代价函数为:
(3)L1正则项L2正则项结合(Elastic Net)
4.岭回归求解
岭回归不抛弃任何一个特征,缩小了回归系数。
岭回归求解与一般线性回归一致。
(1)如果采用梯度下降法:
迭代公式如下:
(2)如果采用正规方程: