ML二（决策树学习）

决策树学习

Decision Tree Learning

1 基本概念

　　属性（attribute）：树上的每个结点说明了对实例的某个属性的测试，该结点的每一个后继分支对应该属性的一个可能值。

　　熵（entropy）：刻画了任意样例集的纯度。S相对于c个状态的分类的熵定义为：

ML二（决策树学习）

　　信息增益（information gain）：

ML二（决策树学习）

ML二（决策树学习）

　　ID3算法就是在每次需要分裂时，计算每个属性的信息增益率，然后选择信息增益最大的属性进行分裂。

举例：

ML二（决策树学习）

　　第一步后形成的部分决策树

ML二（决策树学习）

　　ID3算法存在一个问题，就是偏向于多值属性，例如，如果存在唯一标识属性ID，则ID3会选择它作为分裂属性，这样虽然使得划分充分纯净，但这种划分对分类几乎毫无用处。ID3的后继算法C4.5使用增益率（gain ratio）的信息增益扩充，试图克服这个偏倚。

C4.5算法首先定义了"分裂信息（split information）"，其定义可以表示成：

ML二（决策树学习）

　　C4.5选择具有最大增益率的属性作为分裂属性，其具体应用与ID3类似，不再赘述。