机器学习实战（3）

决策树
kNN最大的缺点就是无法给出数据的内在含义，决策树的主要优势在于数据形式非常容易理解。
决策树的一个重要任务是为了数据中所蕴含的知识信息，因此决策树可以使用不熟悉的数据集合，并从中提取出系列规则，在这些机器根据数据集创建规则时，就是机器学习的过程。
优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据
缺点：可能会产生过度匹配问题
适用数据类型：数值型和标称型
（1）收集数据
（2）准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化
（3）分析数据
（4）训练数据：构造树的数据结构
（5）测试算法：使用经验树计算错误率
（6）使用算法
信息增益
划分数据集的大原则是：将无序的数据变得更加有序，在划分数据集之前之后信息发生的变化称为信息增益，知道如何计算信息增益，我们就可以计算每个特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择

Python
语言不用考虑内存分配问题，在函数中传递的是列表的引用，在函数内部对
列表对象的修改，将会影响该列表
对象的整个生存周期

秒客网

机器学习实战（3）

相关文章