L1正则会产生稀疏解,让很多无用的特征的系数变为0,只留下一些有用的特征
L2正则不让某些特征的系数变为0,即不产生稀疏解,只让他们接近于0。即L2正则倾向于让权重w变小。见第二篇的推导。
所以,样本量比较少,但是特征特别多的时候,可以用L1正则,把一部分不显著的特征系数变成0;
而样本量多,特征偏少的时候,可以使用L2正则,保留住所有的特征,只是让系数变小,接近于0.
机器学习中的范数规则化之(一)L0、L1与L2范数 :http://blog.****.net/zouxy09/article/details/24971995/
http://www.mamicode.com/info-detail-517504.html