文件名称:欠采样和过采样技术解决类不平衡问题的性能分析-研究论文
文件大小:1014KB
文件格式:PDF
更新时间:2024-06-29 20:56:14
论文研究
大多数传统的分类算法都假设它们的训练数据在类别分布方面是均衡的。 然而,现实世界的数据集本质上是不平衡的,因此会降低传统分类器的性能。 不平衡数据集通常会使预测准确性变得困难。 数据预处理方法通过使用随机欠采样或过采样技术来讨论这个问题。 为了解决这个问题,人们采用了许多策略来平衡数据级别的类分布。 数据级方法使用过采样或欠采样技术来平衡多数类和少数类之间的不平衡分布。 在本文中,我们介绍了欠采样方法和过采样方法的性能分析。 这些方法是用 5 个传统分类器实现的,如 C4.5 决策树 (DT)、k-最近邻 (k-NN)、多层感知器 (MLP)、支持向量机 (SVM) 和朴素贝叶斯 (NB) 在 15 个实数上生活数据集。 实验结果显示了欠采样和过采样技术的对比研究。