文件名称:论文研究-基于数据密度分布的欠采样方法研究.pdf
文件大小:947KB
文件格式:PDF
更新时间:2022-08-11 16:04:57
不平衡数据,数据密度,欠采样,分布
针对传统欠采样方法对不平衡数据集重采样时容易丢失多数类样本信息的问题,提出一种基于数据密度分布的欠采样方法US-DD。该方法引入数据密度的概念,并以此概念为依据将数据划分为高密度数据簇和低密度数据簇,高密度数据簇数据高度集中,低密度数据簇数据稀疏松散,两种不同数据簇对分类的意义也不同,因此可以针对不同密度的数据簇执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取六组UCI数据集,采用C4.5决策树、支持向量机作为分类器,将US-DD与随机欠采样、KNN-NearMiss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。