CART决策树

CART（Classification and Regression tree）分类回归树由L.Breiman,J.Friedman,R.Olshen和C.Stone于1984年提出。ID3中根据属性值分割数据，之后该特征不会再起作用，这种快速切割的方式会影响算法的准确率。CART是一棵二叉树，采用二元切分法，每次把数据切成两份，分别进入左子树、右子树。而且每个非叶子节点都有两个孩子，所以CART的叶子节点比非叶子多1。相比ID3和C4.5，CART应用要多一些，既可以用于分类也可以用于回归。CART分类时，使用基尼指数（Gini）来选择最好的数据分割的特征，gini描述的是纯度，与信息熵的含义相似。CART中每一次迭代都会降低GINI系数。下图显示信息熵增益的一半，Gini指数，分类误差率三种评价指标非常接近。回归时使用均方差作为loss function。

cart决策树：

（1）特征选择（2）创建决策树

核心就是找最优分裂特征和最优分裂特征值

针对每一个特征的每一个切分点（相邻两个值的平均值就是切分点），都要计算一个gini增益，取最小的gini增益，选择具有最小Gain_GINI的属性及其属性值，作为最优分裂属性以及最优分裂属性值。

//获得候选分隔值数组，由相邻两个值的平均值组成，

以候选分割值切分的情况下，计算Gini增益先划分后计算，

如果当前切分点能让数据更纯，则选择之；换句话说找Gini增益最小的切分点

相关文章