Stemmer波特词干算法

时间:2015-12-17 09:02:25
【文件属性】:

文件名称:Stemmer波特词干算法

文件大小:13KB

文件格式:JAVA

更新时间:2015-12-17 09:02:25

stemmer

在英语中,一个单词常常是另一个单词的“变种”,如:happy=>happiness,这里happy叫做happiness的词干(stem)。在信息检索系统中,我们常常做的一件事,就是在Term规范化过程中,提取词干(stemming),即除去英文单词分词变换形式的结尾。 应用最为广泛的、中等复杂程度的、基于后缀剥离的词干提取算法是波特词干算法,也叫波特词干器(Porter Stemmer)。详见官方网站。比较热门的检索系统包括Lucene、Whoosh等中的词干过滤器就是采用的波特词干算法。


网友评论

  • 效果还不错,值得借鉴
  • 准确度一般,但是可以用来参考
  • 波特算法,效果还好
  • 效果还可以,不过距离理想的差些
  • 波特算法,效果还好吧
  • 可以用,但不怎么准确!