文件名称:论文研究-集合CHI与IG的特征选择方法.pdf
文件大小:1.07MB
文件格式:PDF
更新时间:2022-08-11 17:53:53
文本分类, 特征选择, 卡方统计, 信息增益
通过分析特征词与类别间的相关性, 在原有卡方特征选择和信息增益特征选择的基础上提出了两个参数, 使得选出的特征词集中分布在某一特定类, 并且使特征词在这一类中出现的次数尽可能地多; 最后集合CHI与IG两种算法得到一种集合特征选择方法CCIF。通过实验对比传统的卡方特征选择、信息增益和CCIF方法, CCIF方法使得算法的微平均查准率得到了明显的提高。