文件名称:文本自动分类系统文本预处理方法的研究 (2005年)
文件大小:190KB
文件格式:PDF
更新时间:2024-05-18 17:30:05
工程技术 论文
在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。
文件名称:文本自动分类系统文本预处理方法的研究 (2005年)
文件大小:190KB
文件格式:PDF
更新时间:2024-05-18 17:30:05
工程技术 论文
在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。