分词器mmseg4j 1.9.0.jar

时间:2021-06-03 09:40:41
【文件属性】:

文件名称:分词器mmseg4j 1.9.0.jar

文件大小:682KB

文件格式:ZIP

更新时间:2021-06-03 09:40:41

mmseg4j

mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j已经实现了这两种分词算法。


【文件预览】:
mmseg4j-core-1.9.0.jar

网友评论