solr的IKAnalyzer中文分词器配置

时间:2021-11-08 03:09:18

上一篇已经说明了如何搭建solr服务器环境,今天给大家说下我是如何搭建solr的IKAnalyzer中文分词器的。

首先需要说明的是目前solr版本是自带一个中文分词器的,配置较简单且无法自己添加词库(一些新的名词无法更新到索引域),

此处不做介绍,大家可以咨询度娘。

ok,开始

首先在上一篇文章的基础上需要添加自己的core,步骤如下:

1.在solrhome文件夹下新建一个文件夹,命名为cores(名字可以自己随便取),用于存放自己的core

2.到solr的解压文件路径下server\solr\configsets\sample_techproducts_configs\conf文件夹复制到刚新建的cores文件夹。

然后就可以开始新建分词器了:

第一步:下载IKAnalyzer相关的jar包及配置文件,下载地址: http://download.csdn.net/download/xiulongshan/9931774

解压得到文件目录如下:其中两个jar为中文分词用到的jar包,ext.dic为扩展字典配置文件,用于更新名词到索引域,stopword.dic

为停止配置文件,用于配置分词时用到的停止符或停止字,IKAnalyzer.cfg.xml为分词配置文件,用于将上述jar与文件与solr服务器建立关系。

solr的IKAnalyzer中文分词器配置


第二步:可以在ext.dic文件夹下新增自己的扩展词语,例如:尬舞、尬聊、老铁

第三步:将三个配置文件ext.dic、stopword.dic、IKAnalyzer.cfg.xml复制到上一篇文章介绍的tomacat搭建的solr服务器的

webapps/solr/WEB-INF/classes文件夹下

第四步:将olr-analyzer-ik-5.1.0.jar和 ik-analyzer-solr5-5.x.jar两个包复制到omacat搭建的solr服务器的

webapps/solr/WEB-INF/lib文件夹下

第五步:修改solr服务器配置文件,上一篇文章介绍搭建的solrhome路径的F:\solrhome\configsets\basic_configs\conf

下的managed-schema文件,进行如下修改:在</schema>标记前添加如下配置:

<fieldType name="text_ik" class="solr.TextField">
        <analyzer type="index">
            <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
        </analyzer>
        <analyzer type="query">
            <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
        </analyzer>
</fieldType>

然后重启tomcat,选择访问http://localhost:8080/solr/index.html进入solr管理界面

然后再点左侧的add core,在name和istanceDir下都输入cores,然后点击add core,如

下说明core添加完成:

solr的IKAnalyzer中文分词器配置

第六步:测试分词器

点击界面左侧Analysis,然后再在右侧的Field Value (Index)输入框内输入需要分词的内容,然后

点击Analyse Fieldname / FieldType选择分词器text_ik,

最后点击Analyse Values按钮即可看到分词结果如下:

solr的IKAnalyzer中文分词器配置

好了,至此solr服务器基本功能均搭建完成,下一步就是利用solrj对solr服务器进行使用了,具体过程如果需要整理的话,我再酌情整理一下吧。。。