决策树
kNN最大的缺点就是无法给出数据的内在含义,决策树的主要优势在于数据形式非常容易理解。
决策树的一个重要任务是为了数据中所蕴含的知识信息, 因此决策树可以使用不熟悉的数据集合,并从中提取出系列规则,在这些机器根据数据集创建规则时,就是机器学习的过程。
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据
缺点:可能会产生过度匹配问题
适用数据类型:数值型和标称型
(1)收集数据
(2)准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化
(3)分析数据
(4)训练数据:构造树的数据结构
(5)测试算法:使用经验树计算错误率
(6)使用算法
信息增益
划分数据集的大原则是:将无序的数据变得更加有序,在划分数据集之前之后信息发生的变化称为信息增益,知道如何计算信息增益,我们就可以计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择
Python
语言不用考虑内存分配问题,在函数中传递的是列表的引用,在函数内部对
列表对象的修改,将会影响该列表
对象的整个生存周期