文件名称:中文文本分类中特征抽取方法的比较研究
文件大小:239KB
文件格式:PDF
更新时间:2013-09-22 03:41:42
中文文本分类 特征抽取
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、V2 分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN 两种不同的分类器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和CHI) 在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。