L1、L2规则化

时间:2023-02-02 21:54:34


如何看待L1、L2规则化

将它们视为loss函数中引入了惩罚项。

我们的目的是希望求出在参数值取多少时,loss函数是最小的;但是引入L1、L2规则化算子后(这时就变成拉格朗日函数),相当于给参数的取值套了个“紧箍咒”:

不再像原来那样可以*自在地随便给参数取值
原因在于我们可以看到L1、L2都恒大于0,而我们的目标是要求得min

这正是regularization(规则化)的来由(有的翻译为正则化,感觉不够贴切)。
我们还可以从另一个角度看待:

loss函数是希望参数取值往其极小值方向去;
规则化是希望往其中心点去
两者就像两个人在拔河,最后找到了一个平衡点,就是最后的参数值

L1、L2规则化


注意加入规则化会使得loss函数的等值线(上图彩色线)发生变化,实际是在新的目标函数下求解。

为什么L2规则化可以防止过拟合

L2规则化
->求得的参数值小
->不会因为输入值的微小偏差,导致输出发生巨大变化(克服了ill condition)。(这就是好的泛化)

关于L2的其他

L2将函数转为了λ-stronglyconvex(强凸):

“强凸”的话,就能对情况做一些控制,我们就可以得到一个更好的近似解。

Ref

​​机器学习中的范数规则化之(一)L0、L1与L2范数​​