深度学习分类算法系列之 -决策树

时间:2024-04-13 17:49:01

决策树的理解:

决策树是一种一种类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试对未知数据进行分类,每个分支代表一个属性输出,每个树叶结点代表类或类分布。
决策树包括:根结点、若干个内部结点、若干个叶节点(即目标分类节点)。

例如:深度学习分类算法系列之 -决策树

决策树包含三种结点,并用含属性值标记(比如上图中的晴,雨,云)的有向边相连(一定自上向下忽略方向箭头)。

1)根结点(root node),用矩形表示,如天气结点,它没有入边,但有零条或多条出边。其中的字串“天气”是样本集属性名称。

2)内部结点(internal node),用矩形表示。如温度结点,它恰有一条入边,但有两条或多条出边。“温度”是样本集属性名称。

3)叶结点(leaf node)或终结点(terminal node),用椭圆表示,如“是”结点,恰有一条入边,但没有出边。椭圆形里的“是”等字符串是样本集的一个类别标号。

4)每条有向边都用其出点的属性值标记,如“晴天”“多云”、“雨天”是其出点“天气”属性的三种取值。

通常,一个属性有多少种取值,就从该结点引出多少条有向边,每一条边代表属性的一种取值。

如何从数据中构建决策树

比如有下边一组数据(周志华课本中有这个图)
深度学习分类算法系列之 -决策树

课本中给出的决策树如下所示

深度学习分类算法系列之 -决策树

但是这个顺序是怎么来的呢?为什么选择的是纹理,这是以什么标准来选择特征的?这就是我们要说的决策树的关键步骤是分裂属性。

所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。而判断“纯”的方法不同引出了我们的ID3算法,C4.5算法以及CART算法。

接下来就讲讲如何生成决策树的问题,生成决策树这篇文章写得很不错:

https://www.cnblogs.com/muzixi/p/6566803.html

https://blog.****.net/u012328159/article/details/70184415

在看上边文章之前,可以先看一下下边内容,上边内容就更好理解了。

https://blog.****.net/justdoithai/article/details/51236493