1. Gini系数公式
CART算法
采用Gini系数来衡量划分的有效性
G i n i = ∑ i = 1 n [ p i ∗ ( 1 − p i ) ] = 1 − ∑ i = 1 n p i 2 Gini = \sum_{i=1}^{n}[p_{i}*(1-p_{i})] =1-\sum_{i=1}^{n}p_{i}^{2} Gini=i=1∑n[pi∗(1−pi)]=1−i=1∑npi2
2. CART算法特点
- 选择gini增益最大的属性作为当前数据集的分割属性
- 可用于分类和回归两类问题
- CART构建是二叉树
3. CART回归树的分裂评价指标
MSE均方误差划分指标:
样本越集中,值越小,划分越好
M S E = 1 n ∑ i = 1 n ( y i − y ˉ i ) 2 MSE=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\bar{y}_{i})^{2} MSE=n1i=1∑n(yi−yˉi)2
MAE绝对误差划分指标:
M
A
E
=
1
n
∑
i
=
1
n
∣
y
i
−
y
^
i
∣
MAE=\frac{1}{n}\sum_{i=1}^{n}|y_{i}-\hat{y}_{i}|
MAE=n1i=1∑n∣yi−y^i∣