文本自动分类系统文本预处理方法的研究 (2005年)

时间:2024-05-18 17:30:05
【文件属性】:

文件名称:文本自动分类系统文本预处理方法的研究 (2005年)

文件大小:190KB

文件格式:PDF

更新时间:2024-05-18 17:30:05

工程技术 论文

在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。


网友评论