文件名称:论文研究-*文Bigram文本特征提取.pdf
文件大小:678KB
文件格式:PDF
更新时间:2022-09-30 09:51:53
论文研究
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在*文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了*文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种*语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对*文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高*文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。