文件名称:贫困精准识别模型的构建-中国电信新型智慧城市白皮书(2020)-2020.9-31页
文件大小:1.17MB
文件格式:PDF
更新时间:2024-07-21 16:54:06
随机森林
四、贫困精准识别模型的构建 贫困的精准识别即从大量的贫困数据中,将个体分成贫困和非贫困两类。分类作为数据挖掘的 一个重要研究方向,主要是根据一些给定的已知类别标号的样本,通过训练得到分类函数,进而利用 分类函数对未知类别的样本进行分类。现阶段,解决分类问题的方法很多,主要包括单一的分类方法 和集成学习算法。 随机森林算法作为一种集成学习算法,相比SVM、神经网络和 KNN等分类算法,分类效果较 优。本文分析的人口数据具有非平衡性、数据缺失异常和数据变量多等特征,而随机森林算法能够很 好地应对数据集数据缺失、非平衡及多元共线性问题,在对多元数据进行分类预测时能取得良好的分 类效果,是当前分类效果较好的算法之一。因此,本文采用随机森林算法构建贫困人口识别模型实现 对贫困样本的识别。 1.基于随机森林算法的贫困识别模型构建 基于随机森林算法的贫困户识别过程的主要步骤就是决策树的生成。随机森林算法在构建决策 树的时候需要经过采样与完全分裂两个步骤。在构建决策树之前,随机森林算法会对贫困数据集进 行行、列两次随机采样。行采样主要是采用有放回的方式,从原有数据集中随机采取与样本集中样本 数量相同的样本,组成新的样本集;这样就保障了随机样本集在不改变原数据集数据分布的同时,解 决了贫困数据集过拟合的问题。列采样主要是从贫困数据集的特征集中随机选取多个特征作为决策 52 ChaoXing