文件名称:基于中文的Shuzhen分词器1.1.4提供下载
文件大小:814KB
文件格式:RAR
更新时间:2011-11-12 08:42:22
lucene 中文分词器 搜索引擎
此版本改进为:分词时采用了完全匹配方式(自命名的),也即将符合字典条目的词全部切分出来,在基于字典的分词中达到了“分无可分”的程度;分词时完全按照标准分词来进行,这样保证了在和一些高亮显示组件如highlighter一起使用时,能准确无误的将命中进行高亮显示,避免了Google高亮显示的 Bug;配置文件的存放支持相对路径,这样更灵活,更方便应用在一些虚拟机上;字典条目支持导入到内存中,也就是在原有JDBM字典系统的基础上增加内存字典系统,且能方便自定义导入多少条目到内存中,能自定义使用内存还是JDBM字典系统还是两者结合起来使用,从而提高了索引创建速度;改进了对搜索词的处理;能对字典系统进行管理;另外也提供适合jdk1.5的版本。 详细信息可参见官方网站:http://www.shuzhen.net
【文件预览】:
ShuzhenDemo.java
dict.txt
shuzhen.properties
jdbm-1.0.jar
readme.txt
ShuzhenAnalyzer-1.1.4-jdk1.5.0.jar