文件名称:Lucene中文分词器包
文件大小:853KB
文件格式:JAR
更新时间:2010-09-03 11:48:07
Java Lucene 中文分词 共享 开源
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。
1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP)
2. 对数量词、地名、路名的优化处理
3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率
(使用方法请参考IKAnalyzer V1.1版)