论文研究-基于类别分布差异和特征熵的*语文本特征选择.pdf

时间:2022-08-11 17:11:54
【文件属性】:

文件名称:论文研究-基于类别分布差异和特征熵的*语文本特征选择.pdf

文件大小:774KB

文件格式:PDF

更新时间:2022-08-11 17:11:54

特征选择,文本分类,特征熵,支持向量机,*语

文本特征选择是在文本自动分类中最重要的一个环节。为了更好地解决*文文本分类中特征空间的高维性和文档表示向量的稀疏性问题, 提出一种基于特征的类别分布差异和信息熵的*文文本特征选择方法。该方法不仅要考虑特征在类别间的分布情况, 而且也要考虑特征在类别内的分布情况。采用本方法对*文文本语料进行了分类实验, 并与一些传统的特征选择方法进行了比较。从结果来看, 本方法在所选特征数更少的情况下, 达到了比其他方法更高的分类MacroF1值853%, 比传统的IG和CHI等方法在MacroF1值上分别高出了43%和61%。


网友评论