MLE --framework – MAP
MLE:argmaxP(D∣θ)
MAP:argmaxP(θ∣D) = argmaxP(D∣θ)P(θ)
MAP 是在MLE的条件下考察θ的先验分布
from Guassian Prior to L2 Regularization
from Laplace Prior to L1 Regularization
LASSO回归VS特征选择
·如果维度太高,计算量也变得很高
·在稀疏性条件下,计算量只依赖于非0项的个数
·提高可解释性
在N<D其中N代表样本个数D代表特征维度
特征选择的方法:
option1: Exhaustive Serah: all subsets
option2: Greedy Approaches:
·Forward Stepwise
·Backward Stepwise
option3: via Regularization
LASSO介绍
以线性回归的目标函数举例: L=∥Xω−Y∥F2+λ∥ω∥1
∥ω∥1对ω的梯度是多少:
ωj∂∥ω∥1=ωj∂∣ωj∣
根据ωj的取值分别有三种可能性。
Coordinate Descent
Goal: minimize some function g
g(ω)=g(ω1,ω2,...,ωn)
每次只在一个维度上求解最小值,把其他维度看做常量求解,怎样选择下一个coordinate:1.依次选择 2.随机选择
不需要设定step-size,对于lasso objective,会收敛
coordinate descent for lasso
L=∑i=1n(∑j=1dωjxij+b−yi)2+λ∑j=1d∣ωj∣
ωl∂L=2i=1∑n(j=1∑dωjxij+b−yi)∗xil+λ∗ωl∂∑j=1d∣ωj∣