elasticsearch 口水篇（8）分词中文分词 ik插件

先来一个标准分词（standard），配置如下：

curl -XPUT localhost:9200/local -d '{

    "settings" : {

        "analysis" : {

            "analyzer" : {

                "stem" : {

                    "tokenizer" : "standard",

                    "filter" : ["standard", "lowercase", "stop", "porter_stem"]

                }

            }

        }

    },

    "mappings" : {

        "article" : {

            "dynamic" : true,

            "properties" : {

                "title" : {

                    "type" : "string",

                    "analyzer" : "stem"

                }

            }

        }

    }

}'

index:local

type:article

default analyzer:stem (filter:小写、停用词等)

field:title　　

测试：

# Sample Analysis

curl -XGET localhost:9200/local/_analyze?analyzer=stem -d '{Fight for your life}'

curl -XGET localhost:9200/local/_analyze?analyzer=stem -d '{Bruno fights Tyson tomorrow}'

# Index Data

curl -XPUT localhost:9200/local/article/1 -d'{"title": "Fight for your life"}'

curl -XPUT localhost:9200/local/article/2 -d'{"title": "Fighting for your life"}'

curl -XPUT localhost:9200/local/article/3 -d'{"title": "My dad fought a dog"}'

curl -XPUT localhost:9200/local/article/4 -d'{"title": "Bruno fights Tyson tomorrow"}'

# search on the title field, which is stemmed on index and search

curl -XGET localhost:9200/local/_search?q=title:fight

# searching on _all will not do anystemming, unless also configured on the mapping to be stemmed...

curl -XGET localhost:9200/local/_search?q=fight

例如：

Fight for your life

分词如下：

{"tokens":[

{"token":"fight","start_offset":1,"end_offset":6,"type":"<ALPHANUM>","position":1},
{"token":"your","start_offset":11,"end_offset":15,"type":"<ALPHANUM>","position":3},
{"token":"life","start_offset":16,"end_offset":20,"type":"<ALPHANUM>","position":4}

]}

部署ik分词器：

1）将ik分词器插件（es）拷贝到./plugins/analyzerIK/中

2）在elasticsearch.yml中配置

index.analysis.analyzer.ik.type : "ik"

3）在config中添加./config/ik

IKAnalyzer.cfg.xml

main.dic

quantifier.dic

ext.dic

stopword.dic

delete之前创建的index，重新配置如下：

curl -XPUT localhost:9200/local -d '{

    "settings" : {

        "analysis" : {

            "analyzer" : {

                "ik" : {

                    "tokenizer" : "ik"

                }

            }

        }

    },

    "mappings" : {

        "article" : {

            "dynamic" : true,

            "properties" : {

                "title" : {

                    "type" : "string",

                    "analyzer" : "ik"

                }

            }

        }

    }

}'

测试：

curl 'http://localhost:9200/index/_analyze?analyzer=ik&pretty=true' -d'

{

    "text":"*国歌"

}

'

{

  "tokens" : [ {

    "token" : "text",

    "start_offset" : 12,

    "end_offset" : 16,

    "type" : "ENGLISH",

    "position" : 1

  }, {

    "token" : "*",

    "start_offset" : 19,

    "end_offset" : 26,

    "type" : "CN_WORD",

    "position" : 2

  }, {

    "token" : "国歌",

    "start_offset" : 26,

    "end_offset" : 28,

    "type" : "CN_WORD",

    "position" : 3

  } ]

}

---------------------------------------

如果我们想返回最细粒度的分词结果，需要在elasticsearch.yml中配置如下：

index:

  analysis:

    analyzer:

      ik:

          alias: [ik_analyzer]

          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

      ik_smart:

          type: ik

          use_smart: true

      ik_max_word:

          type: ik

          use_smart: false

测试：

curl 'http://localhost:9200/index/_analyze?analyzer=ik_max_word&pretty=true' -d'

{

    "text":"*国歌"

}

'

{

  "tokens" : [ {

    "token" : "text",

    "start_offset" : 12,

    "end_offset" : 16,

    "type" : "ENGLISH",

    "position" : 1

  }, {

    "token" : "*",

    "start_offset" : 19,

    "end_offset" : 26,

    "type" : "CN_WORD",

    "position" : 2

  }, {

    "token" : "中华人民",

    "start_offset" : 19,

    "end_offset" : 23,

    "type" : "CN_WORD",

    "position" : 3

  }, {

    "token" : "中华",

    "start_offset" : 19,

    "end_offset" : 21,

    "type" : "CN_WORD",

    "position" : 4

  }, {

    "token" : "华人",

    "start_offset" : 20,

    "end_offset" : 22,

    "type" : "CN_WORD",

    "position" : 5

  }, {

    "token" : "人民*",

    "start_offset" : 21,

    "end_offset" : 26,

    "type" : "CN_WORD",

    "position" : 6

  }, {

    "token" : "人民",

    "start_offset" : 21,

    "end_offset" : 23,

    "type" : "CN_WORD",

    "position" : 7

  }, {

    "token" : "*",

    "start_offset" : 23,

    "end_offset" : 26,

    "type" : "CN_WORD",

    "position" : 8

  }, {

    "token" : "共和",

    "start_offset" : 23,

    "end_offset" : 25,

    "type" : "CN_WORD",

    "position" : 9

  }, {

    "token" : "国",

    "start_offset" : 25,

    "end_offset" : 26,

    "type" : "CN_CHAR",

    "position" : 10

  }, {

    "token" : "国歌",

    "start_offset" : 26,

    "end_offset" : 28,

    "type" : "CN_WORD",

    "position" : 11

  } ]

}

elasticsearch 口水篇（8）分词中文分词 ik插件的更多相关文章

elasticsearch 口水篇（1）安装、插件
一)安装elasticsearch 1)下载elasticsearch-0.90.10,解压,运行\bin\elasticsearch.bat (windwos) 2)进入http://localho ...
elasticsearch 口水篇（4）java客户端 - 原生esClient
上一篇(elasticsearch 口水篇(3)java客户端 - Jest)Jest是第三方客户端,基于REST Api进行调用(httpClient),本篇简单介绍下elasticsearch原生 ...
ElasticSearch简介（三）——中文分词
很多时候,我们需要在ElasticSearch中启用中文分词,本文这里简单的介绍一下方法.首先安装中文分词插件.这里使用的是 ik,也可以考虑其他插件(比如 smartcn). $ ./bin/ela ...
elasticsearch学习笔记-倒排索引以及中文分词
我们使用数据库的时候,如果查询条件太复杂,则会涉及到很多问题 1.无法维护,各种嵌套查询,各种复杂的查询,想要优化都无从下手 2.效率低下,一般语句复杂了之后,比如使用or,like %,,%查询之后 ...
elasticsearch 口水篇（9）Facet
FACET 1)Terms Facet { "query" : { "match_all" : { } }, "facets" : { &q ...
elasticsearch 口水篇（2）CRUD Sense
Sense 为了方便.直观的使用es的REST Api,我们可以使用sense.Sense是Chrome浏览器的一个插件,使用简单. 如图: Sense安装: https://chrome.googl ...
elasticsearch 口水篇（7） Eclipse中部署ES源码、运行
ES源码可以直接从svn下载 https://github.com/elasticsearch/elasticsearch 下载后,用Maven导入(import——>Existing Mave ...
elasticsearch 口水篇（6） Mapping 定义索引
前面我们感觉ES就想是一个nosql数据库,支持Free Schema. 接触过Lucene.solr的同学这时可能会思考一个问题——怎么定义document中的field?store.index.a ...
elasticsearch 口水篇（3）java客户端 - Jest
elasticsearch有丰富的客户端,java客户端有Jest.其原文介绍如下: Jest is a Java HTTP Rest client for ElasticSearch.It is a ...

随机推荐

Eclipse搭建Maven Prooject（终于）
今天我们一起来探讨eclipse搭建maven项目的步骤一.建一个maven项目, 1.找到File ,点击 2.弹出窗口,再点击new 3.弹出窗口,点击other 4.输入maven,找到mav ...
教你一招：解决windows xp系统开机出现&OpenCurlyDoubleQuote;disk checking has been canceled”
问题重现: 问题分析: 系统的注册表被修改了. 问题解决: 1.(临时解决)开机时,按ESC或ENTER键取消. 2.(彻底解决)修改注册表文件. Win + R 打开运行 Regedit ,进入注册 ...
CSS Font知识整理总结
1.什么是字体字体是文字的外在形式,就是文字的风格,是文字的外衣.比如行书.楷书.草书,都是一种字体.同样一个字每个人写起来都会有差异,可以说每个人都有一套潜在的字体库.对于web页面来说,字体就是 ...
Understanding CMS GC Logs--转载
原文地址:https://blogs.oracle.com/poonam/entry/understanding_cms_gc_logs Understanding CMS GC Logs By Po ...
jsp 学习第3步 - el 自定义方法 tld 说明
使用 el 的过程中,需要使用到后端代码处理逻辑,这个时候我们就需要自定义方法. 如我们后端代码定义如下: package com.rhythmk.common; public class FncH ...
mkinitrd---简单介绍
转载:http://blog.csdn.net/zwcq82/article/details/4295481 原来对mkinitrd不是很了解.最近做内核升级,需要制作信息的initrd文件,发现出错 ...
bzoj3123
首先肯定是主席树但这是一类“动态树”,似乎没有什么好的办法那就暴力呗,这里用到启发式合并,即两棵树合并,重建节点少的的那棵可以用并查集维护连通性查询主席树的建立还是和bzoj2588一样 ; type ...
Python报错：SyntaxError&colon; Non-ASCII character &&num;39&semi;\xe5&&num;39&semi; in file
运行Python脚本总是报一下的错误: SyntaxError: Non-ASCII character '\xe5' in file 原因:Python默认是以ASCII作为编码方式的,如果在自己的 ...
Python入门（青铜篇）
一.定义变量 print('hello world \n') 定义变量name='单宝梁' #定义字符串一定加‘’age=28 引号使用words="i'm 单宝梁" #字符串里有 ...
【转】RPC介绍
转自:http://www.cnblogs.com/Vincentlu/p/4185299.html 摘要: RPC——Remote Procedure Call Protocol,这是广义上的解释, ...

elasticsearch 口水篇（8）分词 中文分词 ik插件

elasticsearch 口水篇（8）分词 中文分词 ik插件的更多相关文章

随机推荐

相关文章

elasticsearch 口水篇（8）分词中文分词 ik插件

elasticsearch 口水篇（8）分词中文分词 ik插件的更多相关文章