论文研究-文本自动分类系统文本预处理方法的研究.pdf

时间:2022-08-11 12:03:44
【文件属性】:

文件名称:论文研究-文本自动分类系统文本预处理方法的研究.pdf

文件大小:159KB

文件格式:PDF

更新时间:2022-08-11 12:03:44

文本分类,文本预处理,停用词,中文分词

在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。


网友评论