中文分词及其在基于Lucene的全文检索中的应用

时间:2016-08-13 03:37:51
【文件属性】:

文件名称:中文分词及其在基于Lucene的全文检索中的应用

文件大小:929KB

文件格式:DOC

更新时间:2016-08-13 03:37:51

中文分词 lucene 全文检索 论文

  本文构造出一种适应中英文信息处理的Lucene语言分析器,该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法,该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配,采用基于规则统计技术来进行新词识别,通过对分词中衍生词进行回溯分析来处理分词中歧义,从而达到了高效而准确的分词目的。此外,本文还为该语言分析器构造了一些过滤器,用来对初步分词结果进行过滤、优化。


网友评论