LASSO回归之特征选择

时间:2024-03-28 10:01:31

MLE --framework – MAP

MLE:argmaxP(Dθ)MLE:argmax P(D|\theta)
MAP:argmaxP(θD)MAP:argmaxP(\theta|D) = argmaxP(Dθ)P(θ)argmax P(D|\theta)P(\theta)
MAP 是在MLE的条件下考察θ\theta的先验分布
from Guassian Prior to L2 Regularization
from Laplace Prior to L1 Regularization
LASSO回归之特征选择

LASSO回归VS特征选择

·如果维度太高,计算量也变得很高
·在稀疏性条件下,计算量只依赖于非0项的个数
·提高可解释性
N<DN<D其中NN代表样本个数DD代表特征维度
特征选择的方法:
option1: Exhaustive Serah: all subsets
option2: Greedy Approaches:
·Forward Stepwise
·Backward Stepwise
option3: via Regularization

LASSO介绍

以线性回归的目标函数举例: L=XωYF2+λω1L = \lVert X\omega - Y\rVert_F^2+\lambda\rVert\omega\rVert_1
ω1\lVert\omega\rVert_1ω\omega的梯度是多少:
ω1ωj=ωjωj\frac{\partial{\rVert\omega\rVert}_1}{\omega_j}=\frac{\partial{\vert\omega_j\vert}}{\omega_j}
根据ωj\omega_j的取值分别有三种可能性。

Coordinate Descent

Goal: minimize some function g
g(ω)=g(ω1,ω2,...,ωn)g(\omega)=g(\omega_1,\omega_2,...,\omega_n)
每次只在一个维度上求解最小值,把其他维度看做常量求解,怎样选择下一个coordinate:1.依次选择 2.随机选择
不需要设定step-size,对于lasso objective,会收敛

coordinate descent for lasso

L=i=1n(j=1dωjxij+byi)2+λj=1dωjL=\sum_{i=1}^n(\sum_{j=1}^d\omega_jx_{ij}+b-y_i)^2+\lambda\sum_{j=1}^d\vert\omega_j\vert
Lωl=2i=1n(j=1dωjxij+byi)xil+λj=1dωjωl\frac{\partial L}{\omega_l}=2\sum_{i=1}^n(\sum_{j=1}^d\omega_jx_{ij}+b-y_i)*x_{il}+ \lambda*\frac{\partial\sum_{j=1}^d\vert\omega_j\vert}{\omega_l}
LASSO回归之特征选择