中文文本分类中特征抽取方法的比较研究.pdf

时间:2012-12-26 04:34:23
【文件属性】:

文件名称:中文文本分类中特征抽取方法的比较研究.pdf

文件大小:340KB

文件格式:PDF

更新时间:2012-12-26 04:34:23

计算机应用;中文信息处理;文本自动分类;特征抽取;支持向量机; KNN

本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率 DF、 信息增 益 IG、 互信息 MI、 χ2 分布 CHI四种不同的特征选取方法。采用支持向量机(SVM)和 KNN 两种不同的分类 器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法( IG、 MI和 CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的 矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的 有效性。


网友评论

  • 讲的挺详细的,可以看看