文件名称:论文研究-不平衡数据集上的文本分类特征选择新方法.pdf
文件大小:219KB
文件格式:PDF
更新时间:2022-08-11 16:16:53
不平衡数据集,文本分类,特征选择,正类,负类
针对不平衡数据集上进行文本分类,传统的特征选择方法容易导致分类器倾向于大类而忽视小类,提出一种新的特征选择方法IPR(integrated probability ratio)。该方法综合考虑特征在正类和负类中的分布性质,结合四种衡量特征类别相关性的指标对特征词进行评分,能够更好地解决传统特征选择方法在不平衡数据集上的不适应性,在不降低大类分类性能的同时提高了小类的识别率。实验结果表明,该方法有效可行。