文本分类文档预处理(英文)

时间:2016-09-03 07:24:23
【文件属性】:

文件名称:文本分类文档预处理(英文)

文件大小:4KB

文件格式:CPP

更新时间:2016-09-03 07:24:23

词库生成

简单的文本预处理程序,将输入文档去掉数字(不包含字母的字符串),去掉停用词,去掉标点符号,生成基本可用的词库(保留下的基本都是有意义的特征)。便于之后用支持向量机或者决策树等进行文本分类处理等。


网友评论

  • 很实用,适合初学者
  • 很不错、、
  • 没有停用词词典。。不过这个随便一搜就能找到。 另一个问题是,没有全部小写,首字母全部大写觉得有些不利于接下来的工作。
  • 没有停用词,谢谢分享
  • 感觉不错 试用中
  • 感觉不错,就是没有停用词和原数据集的格式
  • 还不错 就是 没有源文件夹 不知道停用词文档是什么
  • 还不错,谢谢作者
  • C++写的关于单个文档的去听用词,去符号等程序。
  • 额 不是我需要的,我需要的是java程序