汉字stopwords

时间:2013-01-12 05:41:50
【文件属性】:

文件名称:汉字stopwords

文件大小:5KB

文件格式:DIC

更新时间:2013-01-12 05:41:50

stopwords lucene

许多lucene分词器都有过滤停用词(stop word),把对文本信息内容不起作用的高频词过滤。停用词策略能节省存储,提高分类和统计准确度,减少运算量。 词库中使用utf-8编码,每行一个词.


网友评论

  • 正需要这个,就是量少了点,谢谢分享
  • 停用词数量还是太少了点 不够完整