文件名称:汉字stopwords
文件大小:5KB
文件格式:DIC
更新时间:2013-01-12 05:41:50
stopwords lucene
许多lucene分词器都有过滤停用词(stop word),把对文本信息内容不起作用的高频词过滤。停用词策略能节省存储,提高分类和统计准确度,减少运算量。 词库中使用utf-8编码,每行一个词.
文件名称:汉字stopwords
文件大小:5KB
文件格式:DIC
更新时间:2013-01-12 05:41:50
stopwords lucene
许多lucene分词器都有过滤停用词(stop word),把对文本信息内容不起作用的高频词过滤。停用词策略能节省存储,提高分类和统计准确度,减少运算量。 词库中使用utf-8编码,每行一个词.