文件名称:贫困测度指标的选择-中国电信新型智慧城市白皮书(2020)-2020.9-31页
文件大小:1.17MB
文件格式:PDF
更新时间:2024-07-21 16:54:05
随机森林
一、研究综述 1.国外研究现状 扶贫是一个世界性的难题,不同国家的众多学者对精准识别进行了研究。近年来,随着大数据技 术的不断发展,许多学者开始尝试将大数据技术运用到实际的扶贫工作中,并取得了一系列的研究 成果。 在国外,大数据技术在贫困精准识别方面的运用已经取得了一定的研究成果。Karlan等运用大 数据技术,构建了“贫困排序”和“家庭情况验证调查”两步法的贫困精确瞄准方法,并通过对秘鲁和洪 都拉斯的实证研究证明了该方法的有效性[6]。Sano等针对印度尼西亚的贫困情况,运用K均值聚类 分析算法,对各省的绝对贫困、各省贫困人口的相对数、贫困率、各省贫困深度指数等数据进行了统计 分析,并以集群成员可视化的形式呈现了聚类分析的结果[7]。Permana等通过对351个村庄进行观 测与生计资产分析,将影响村庄贫困的因素分为教育、卫生和经济3大类11个指标,运用C4.5算法 对数据进行分类和处理后,发现最敏感的贫困指标为辍学率(教育方面)、营养不良率(健康方面)和农 民工率(经济方面)[8]。Vijaya等针对贫困测度主要从家庭维度出发而缺少对个人贫困程度现状的分 析,认为个体的性别差异也是影响家庭贫困情况的一个重要因素,并构建了个体多维贫困测度模型, 对印度卡纳塔克邦的个体贫困情况进行了测度,分析得出个体多维贫困测度能更好地体现出因性别 导致的贫困差异[9]。 2.国内研究现状 在我国,大数据技术在贫困精准识别方面的运用还主要停留在理论分析的层面上。邓维杰获取 了多个贫困村的生计资本数据,据此分析了贫困村各级指标间的关系及影响机理,并提出了二元检索 贫困村分类法[10]。王瑜使用K均值聚类方法对我国农村贫困地区的贫困人口进行聚类分析,将贫困 人口分为特色地区贫困人口和连片贫困人口,并对这两种贫困人口的结构进行了深入分析,由此得到 其各自的特点和区域分布[11]。田宇利用Kriging算法对数据进行了空间插值,构建了基于“单维度、 多维度识别及贫困加总/分解”的多维贫困测度算法,对武陵山贫困地区的贫困程度进行了测算与分 析[12]。张传华探讨了大数据下的扶贫管理机制并分析大数据精准扶贫的实施对策以及未来所面对 的挑战,指出利用大数据技术对贫困数据进行分析,能够进行科学的预测,实现帮扶对象的精准定 位[13]。邓华丽采用K均值算法,从家庭人口、平均年龄、儿童和老人的比例、病人和残疾人的比例、平 均工作能力、平均教育水平六个方面分析了符合最低生活保障条件的中低收入群体的关键特征,并根 据聚类结果将生活保障体系中的家庭分为患者家庭、孤独长者家庭、学生家庭和贫困家庭四类[14]。 综上所述,国外许多研究人员在贫困人口大数据分析方面已经取得了不少研究成果,主要集中在 贫困数据的聚类分析和贫困影响因子挖掘方面,而基于分类算法的贫困人口识别研究较少。另外,由 于其他国家的贫困人口识别指标体系和机制与我国的有所不同,因此,对我国的贫困人口精准识别参 考意义有限。而我国有关大数据在贫困精准识别方面的研究大多集中在可行性方面,主要以定性的 角度为主,缺乏定量的研究。现有的贫困人口识别定量研究也主要是基于某个地区的贫困情况而进 行的,对其他贫困地区的贫困人口识别缺乏适用性。 因此,从我国当前的贫困人口现状和贫困人口识别机制出发,构建基于可持续生计的多维贫困指 标体系,运用随机森林算法构建了贫困人口精准识别模型,以期实现贫困人口识别由定性到定量、由 单维瞄准向多维瞄准的转变。 二、贫困测度指标的选择 我国当前的贫困线,即贫困测度指标主要是农村纯收入水平。这种以家庭收入为衡量标准的贫 22 ChaoXing