数据分析 - 机器学习-决策树

时间:2024-02-20 11:04:46

决策树:为了达到目标根据一定条件进行选择的过程
常用语:房地产、银行,为了找到核心客户的学习方法
常被用于分类和回归
决策树由 根节点,子节点、叶子节点
决策树的分类标准:熵 (表示一个系统内在的混乱程度)熵代表是分支下样本种类的丰富性
样本种类越多越混乱,熵值越大,决策树的构造深度就是熵值的降低,熵值降低越快,代表决策树分类效率越高
决策树最大的优点是 天然的可解释性的,数据自动处理
缺点就是 不会存在完美的决策树,如果存在就是过拟合了
防止过拟合就是剪枝

剪枝有两种:预剪枝和后剪枝

预剪枝是在训练开始前规定条件,比如树达到某一深度就停止训练
后剪枝则是先找到树,再根据一定条件如限制叶子节点的个数,去掉一部分分支