为什么L1稀疏L2平滑？

两种解释————————————

1、从L1和L2的来源看

当你想从一个手头的数据集中学习出一套规则时，贝叶斯学派认为仅仅使用这些数据是不够的，还需要加入先验知识。如果你在损失函数中使用了L1正则项，那么其实质就是加入了拉普拉斯先验分布，即认为数据是符合拉普拉斯分布的；如果你使用了L2正则项，那么就是加入了高斯先验分布，即认为数据是符合高斯分布的。一般由于推导和计算方便，会对分布函数取对数，然后再去优化。最终的结果是，由于你的模型参数考虑了数据先验，学习出来的规则就更加接近实际。

我们对高斯分布很熟悉，但是对拉普拉斯分布可能比较陌生，拉普拉斯密度函数的图形和表达式分别如下所示：
为什么L1稀疏L2平滑？

我们如果对拉普拉斯密度函数取对数,剩下的是一个一次项|x-u|，这就是L1范式；我们如果对高斯密度函数取对数剩下的就是一个二次项（x-u）^2，这就是L2范式。比较高斯分布的密度函数图像和拉普拉斯分布的密度函数图像，我们很容易看到，当x趋于正无穷和负无穷时，前者是逼近于0的，后者是等于0的。

2、从具体的计算求导角度来看

两种正则项能不能把最优的x变成0，取决于原先的损失函数在0点处的导数。如果本来导数不为0，那么施加L2正则项