C4.5由J.Ross Quinlan在ID3的基础上提出。从ID3算法中衍生出了C4.5和CART两种算法,这两种算法在数据挖掘中都非常重要。
数据集如图所示,它表示的是天气情况与去不去打高尔夫球之间的关系。
C4.5并不是一个算法,而是一组算法——C4.5,非剪枝C4.5和C4.5规则。下图中的算法给出C4.5的基本工作流程:
我们可能有疑问,一个元组本身有很多属性,我们怎么知道首先要对哪个属性进行判断,接下来要对哪个属性进行判断?
一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”越来越高。
划分选择
“信息熵”是度量样本集合纯度最常用的一种指标,样本集合D的信息熵定义为:
信息熵的值越小,则D的纯度越高。
现在假定按照属性a划分D中的元组,且属性a将D划分成v个不同的类。在该划分之后,为了得到准确的分类还需要的信息由下面的式子度量:
于是可计算出用属性a对样本集D进行划分所获得的“信息增益”
一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。因此,我们可用信息增益来进行决策树的划分属性选择。
著名的ID3决策树算法就是以信息增益为准则来选择划分属性的。
但是,以信息增益为准则的话其实是有一个缺点,那就是它偏向于具有大量值的属性。什么意思呢?就是说在训练集中,某个属性所取的不同
值的个数越多,那么越有可能拿它来作为分裂属性。例如一个训练集中有10个元组,对于某一个属性a,它分别取1~10这十个数,如果对a进
行分裂将会分成10个类,那么对于每一个类Info(Dj)=0,从而式(2)为0,该属性划分所得到的信息增益(3)最大,但是这样的决策树显然
不具有泛化能力,无法对新样本进行有效预测。
正是基于此,ID3后面的C4.5采用了信息增益率这样一个概念。信息增益率使用“分裂信息”值将信息增益规范化。分类信息类似于Info(D),
定义如下:
这个值表示通过将训练数据集D划分成对应于属性a测试的v个输出的v个划分产生的信息。信息增益率定义:
需要注意的是,增益率准则对可取值数目较少的属性有所偏好,因此,C4.5算法并不是直接选择增益率最大的候选划分属性,而是使用了一
个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
C4.5克服了ID3的两个缺点:
1、用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性
2、不能处理连贯属性
数据集中,Outlook和Windy取离散值,Temperature和Humidity则取连续值。C4.5是如何处理连续属性的呢?实际上它先把连续属性转
换为离散属性再进行处理。虽然本质上属性的取值是连续的,但对于有限的采样数据它是离散的,如果有N条样本,那么我们有N-1种离散化
的方法:<=vj的分到左子树,>vj的分到右子树。计算这N-1种情况下最大的信息增益率。
在离散属性上只需要计算1次信息增益率,而在连续属性上却需要计算N-1次,计算量是相当大的。有办法可以减少计算量。对于连续属性先
进行排序,只有在决策属性发生改变的地方才需要切开。比如对Temperature进行排序
本来有13种离散化的情况,现在只需计算7种。如果利用增益率来选择连续值属性的分界点,会导致一些副作用。分界点将样本分成两个部
分,这两个部分的样本个数之比也会影响增益率。根据增益率公式,我们可以发现,当分界点能够把样本分成数量相等的两个子集时(我们
称此时的分界点为等分分界点),增益率的抑制会被最大化,因此等分分界点被过分抑制了。子集样本个数能够影响分界点,显然不合理。
因此在决定分界点是还是采用增益这个指标,而选择属性的时候才使用增益率这个指标。这个改进能够很好得抑制连续值属性的倾向。当然
还有其它方法也可以抑制这种倾向,比如MDL。