文件名称:文本分类文档预处理(英文)
文件大小:4KB
文件格式:CPP
更新时间:2016-09-03 07:24:23
词库生成
简单的文本预处理程序,将输入文档去掉数字(不包含字母的字符串),去掉停用词,去掉标点符号,生成基本可用的词库(保留下的基本都是有意义的特征)。便于之后用支持向量机或者决策树等进行文本分类处理等。
文件名称:文本分类文档预处理(英文)
文件大小:4KB
文件格式:CPP
更新时间:2016-09-03 07:24:23
词库生成
简单的文本预处理程序,将输入文档去掉数字(不包含字母的字符串),去掉停用词,去掉标点符号,生成基本可用的词库(保留下的基本都是有意义的特征)。便于之后用支持向量机或者决策树等进行文本分类处理等。