文件名称:Nutch中文分词插件的编写与配置
文件大小:42KB
文件格式:CAJ
更新时间:2012-07-21 11:14:20
nutch 中文分词
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行设计,通过对扩展点的扩展, 用户可以开发自己的各类插件。由于Nutch的分词器对中文只进行单字切分,若要实现较好的对中文信息的搜索查 询,就需要编写一个中文分词器。下面介绍Nutch中文分词插件的实现与配置。