Lucene学习——IKAnalyzer中文分词

一、环境

1、平台：MyEclipse8.5/JDK1.5

2、开源框架：Lucene3.6.1/IKAnalyzer2012

3、目的：测试IKAnalyzer的分词效果

二、开发调试

1、下载框架

1）IKAnalyzer：http://code.google.com/p/ik-analyzer/downloads/list

2）Lucene：http://www.apache.org/dist/lucene/java/3.6.1/

2、添加依赖的库

1）添加Lucene：lucene-core-3.6.1.jar

2）添加IKAnalyzer：IKAnalyzer2012.jar

3、配置IKAnalyzer

1）添加配置文件IKAnalyzer.cfg.xml和StopWord词典库stopword.dic文件，把这两个文件放到src目录下，也就是classpath路径下

4、编写测试程序，测试代码如下

package org.cyxl.lucene.test;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.wltea.analyzer.lucene.IKAnalyzer;

public class IKAnalyzerTest {

    public static void main(String[] args) {

        String keyWord = "IKAnalyzer的分词效果到底怎么样呢，我们来看一下吧";

        //创建IKAnalyzer中文分词对象

        IKAnalyzer analyzer = new IKAnalyzer();

        // 使用智能分词

        analyzer.setUseSmart(true);

        // 打印分词结果

        try {

            printAnalysisResult(analyzer, keyWord);

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    /**

     * 打印出给定分词器的分词结果

     *

     * @param analyzer

     *            分词器

     * @param keyWord

     *            关键词

     * @throws Exception

     */

    private static void printAnalysisResult(Analyzer analyzer, String keyWord)

            throws Exception {

        System.out.println("["+keyWord+"]分词效果如下");

        TokenStream tokenStream = analyzer.tokenStream("content",

                new StringReader(keyWord));

        tokenStream.addAttribute(CharTermAttribute.class);

        while (tokenStream.incrementToken()) {

            CharTermAttribute charTermAttribute = tokenStream

                    .getAttribute(CharTermAttribute.class);

            System.out.println(charTermAttribute.toString());

        }

    }

}

5、结果如下

[IKAnalyzer的分词效果到底怎么样呢，我们来看一下吧]分词效果如下

加载扩展停止词典：stopword.dic

ikanalyzer

的

分词

效果

到底

怎么样

呢

我们

来看

一下

吧

6、扩展自己的词典和StopWord

1）在src目录下，新建自身的词典文件ext.dic，输入词如下（注意第一行留空，不知道为什么）

分词效果

2）在src目录下，新建自身的StopWord文件chinese_stopword.dic（也是第一行留空，疑惑中）

吧

呢

来

的

3）配置IKAnalyzer配置文件IKAnalyzer.cfg.xml，如下

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

    <comment>IK Analyzer 扩展配置</comment>

    <!--用户可以在这里配置自己的扩展字典 -->

    <entry key="ext_dict">ext.dic;</entry>   

    <!--用户可以在这里配置自己的扩展停止词字典-->

    <entry key="ext_stopwords">stopword.dic;chinese_stopword.dic</entry>   

</properties>

4）配置好后测试结果如下

[IKAnalyzer的分词效果到底怎么样呢，我们来看一下吧]分词效果如下

加载扩展词典：ext.dic

加载扩展停止词典：stopword.dic

加载扩展停止词典：chinese_stopword.dic

ikanalyzer

分词效果

到底

怎么样

我们

来看

一下

三、总结

1、IKAnalyzer分词效果基本还是可以的，可以根据我们自身的项目业务扩展自己的词典和StopWord

2、下面就结果中文分词和Lucene将上一篇的搜索引擎雏形加以修改，让它适合中文网站

Lucene学习——IKAnalyzer中文分词的更多相关文章

Solr的学习使用之（三）IKAnalyzer中文分词器的配置
1.为什么要配置? 1.我们知道要使用Solr进行搜索,肯定要对词语进行分词,但是由于Solr的analysis包并没有带支持中文的包或者对中文的分词效果不好,需要自己添加中文分词器:目前呼声较高的是 ...
solr服务中集成IKAnalyzer中文分词器、集成dataimportHandler插件
昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: ...
2&period;IKAnalyzer 中文分词器配置和使用
一.配置 IKAnalyzer 中文分词器配置,简单,超简单. IKAnalyzer 中文分词器下载,注意版本问题,貌似出现向下不兼容的问题,solr的客户端界面Logging会提示错误. 给出我配置 ...
Solr4&period;0+IKAnalyzer中文分词安装(转)
有近2年没接触Solr跟Lucene了,这2年自己跟solr/lucene都发生了很多变化.不过有种疏途同归的感觉,那就是都向分布式/云和监控靠了.2年前接触了solrcloud,那时大概玩了一周.那 ...
Solr4&period;0+IKAnalyzer中文分词安装
1.依赖: JDK1.6,Tomcat 5.5,Solr 4.0.0,IKAnalyzer 2012FF Tomcat虽然不是必须,但觉得上生产环境的话,还是得用Tomcat,便于统一管理和监控. T ...
Java实现敏感词过滤 - IKAnalyzer中文分词工具
IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包. 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 I ...
用于Lucene的各中文分词比较
对几种中文分析器,从分词准确性和效率两方面进行比较.分析器依次为:StandardAnalyzer.ChineseAnalyzer.CJKAnalyzer.IK_CAnalyzer.MIK_CAnal ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
（转）全文检索技术学习(三)——Lucene支持中文分词
http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程如下图是语汇单元的生成过程: 从一个Re ...

随机推荐

利用vim查看日志,快速定位问题
起因在一般的情况下,如果开发过程中测试报告了一个问题,我一般会这么做: 1.在自己的开发环境下重试一下测试的操作,看看能不能重现问题.不行转2 2.数据库连接池改成测试库的地址,在自己的开发环境下重 ...
python 中转义字符的注释
文章转自:http://blog.sina.com.cn/s/blog_89e141170101cs73.html 转义字符描述 \(在行尾时) 续行符 \\ 反斜杠符号 \’ 单引号 \” 双引号 ...
部署新浪SAE web&period;py Session及图片上传等问题注意事项
1.以下几条代码解决编码问题 import sysreload(sys)sys.setdefaultencoding('utf-8') 2.图片上传问题需要开通sina的Storage服务,随便建个 ...
zookeeper的配置项
1 tickTime:CS通信心跳数 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳.tickTime以毫秒为单位. tick ...
Ubuntu环境变量——添加与删除
转自:http://beanocean.diandian.com/post/2013-11-09/40060047963 注: 1.作者的系统是Ubuntu 13.10,在其他linux发行版中环境变 ...
Java IO流之普通文件流和随机读写流区别
普通文件流和随机读写流区别普通文件流:http://blog.csdn.net/baidu_37107022/article/details/71056011 FileInputStream和Fil ...
更便捷的css处理方式-postcss
更便捷的css处理方式-PostCSS 一般来说介绍一个东西都是要从是什么,怎么用的顺序来讲.我感觉这样很容易让大家失去兴趣,先看一下postcss能做点什么,有兴趣的话再往下看,否则可能没有耐心看下 ...
Eclipse 配置运行Spark
本文主要记录Spark 在 Eclipse中报找不到主类的问题.在新建Spark工程,然后add external jars 选择 spark-assembly-1.4.0-hadoop2.6.0. ...
Android手动控制软键盘的开启和关闭，判断软键盘是否显示；
工具类,拿走就能用: import android.annotation.TargetApi; import android.app.Activity; import android.content. ...
Java数据库连接池原理与简易实现
1.什么是数据库连接池我们现在在开发中一定都会用到数据库,为了提高我们的系统的访问速度,数据库优化是一个有效的途径.我们现在开发中使用数据库一般都要经历以下的四个步骤:(1)加载数据库的驱动类,(2 ...