文件名称:论文研究-不均衡数据集文本分类中少数类样本生成方法研究.pdf
文件大小:705KB
文件格式:PDF
更新时间:2022-08-11 16:02:29
不均衡数据集,分类,聚类,遗传算法,样本生成
针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(K nearest neighbor,KNN)及支持向量机(support vector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。