文件名称:SMate:合成少数对抗技术-研究论文
文件大小:3.46MB
文件格式:PDF
更新时间:2024-06-30 07:22:47
Data-set Class Imbalance
在重要的预测场景中,数据集自然是不平衡的,例如在癌症检测中:一小部分人可能会患上这种疾病。 这对机器学习算法提出了重大的分类挑战。 数据不平衡会导致感兴趣类别的性能降低,例如以高精度分类该人患有癌症。 当训练数据丰富时,一种可能的方法是对多数类进行下采样,从而恢复平衡。 另一种流行的方法是加权,加速少数类培训示例的学习。 Synthesis 是一个主要的替代方法,生成少数类的例子,将它们添加到训练集中以克服类不平衡。 合成少数过采样技术,SMOTE 被广泛应用,但它不是为图像数据开发的。 相反,这项研究应用了生成对抗网络,它生成从少数类分布中提取的图像示例。 新颖的 SMate 方法利用 GAN 少数类图像生成器,这受益于多数类图像生成器的迁移学习。 因此,对于不平衡的图像数据集,SMate 优于 SMOTE。