文件名称:关于集成学习的基本概念-人脸识别图像预处理技术
文件大小:4.91MB
文件格式:PDF
更新时间:2024-06-29 11:23:50
数据挖掘算法 Python
9.1 关于集成学习的基本概念 1.集成学习概念 集成学习是机器学习中一个非常重要且热门的分支,是用多个弱分类器构成一个强分类器,其哲学 思想是“三个臭皮匠赛过诸葛亮”。一般的弱分类器可以由决策树,神经网络,贝叶斯分类器,K-近 邻等构成。已经有学者理论上证明了集成学习的思想是可以提高分类器的性能的,比如说统计上的 原因,计算上的原因以及表示上的原因。 2.为什么要集成 1)模型选择 假设各弱分类器间具有一定差异性(如不同的算法,或相同算法不同参数配置),这会导致生成的分 类决策边界不同,也就是说它们在决策时会犯不同的错误。将它们结合后能得到更合理的边界,减 少整体错误,实现更好的分类效果。 2)数据集过大或过小 数据集较大时,可以分为不同的子集,分别进行训练,然后再合成分类器。 数据集过小时,可使用自举技术(bootstrapping),从原样本集有放回的抽取 m 个子集,训练 m 个分 类器,进行集成。 3)分治 若决策边界过于复杂,则线性模型不能很好地描述真实情况。因此先训练多个线性分类器,再将它 们集成。 4)数据融合(Data Fusion) 当有多个不同数据源,且每个数据源的特征集抽取方法都不同时(异构的特征集),需要分别训练分 类器然后再集成 3 集成学习常用算法(Boosting / bagging / stacking) boosting 的弱分类器形成是同一种机器学习算法,只是其数据抽取时的权值在不断更新,每次都是 提高前一次分错了的数据集的权值,最后得到 T 个弱分类器,且分类器的权值也跟其中间结果的数 据有关。