文件名称:分词器mmseg4j 1.9.0.jar
文件大小:682KB
文件格式:ZIP
更新时间:2021-06-03 09:40:41
mmseg4j
mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j已经实现了这两种分词算法。
【文件预览】:
mmseg4j-core-1.9.0.jar