文本自动分类系统文本预处理方法的研究 (2005年)

时间:2021-04-28 23:43:25
【文件属性】:
文件名称:文本自动分类系统文本预处理方法的研究 (2005年)
文件大小:190KB
文件格式:PDF
更新时间:2021-04-28 23:43:25
工程技术 论文 在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。

网友评论