第三百六十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理

第三百六十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理

1、映射(mapping)介绍

映射：创建索引的时候，可以预先定义字段的类型以及相关属性
elasticsearch会根据json源数据的基础类型猜测你想要的字段映射，将输入的数据转换成可搜索的索引项，mapping就是我们自己定义的字段数据类型，同时告诉elasticsearch如何索引数据以及是否可以被搜索

作用：会让索引建立的更加细致和完善

类型：静态映射和动态映射

2、内置映射类型(也就是数据类型)

string类型：text,keyword两种
　　text类型：会进行分词，抽取词干，建立倒排索引
　　keyword类型：就是一个普通字符串，只能完全匹配才能搜索到

数字类型：long,integer,short,byte,double,float

日期类型：date

bool(布尔)类型：boolean

binary(二进制)类型：binary

复杂类型：object,nested

geo(地区)类型：geo-point,geo-shape

专业类型：ip,competion

3、属性介绍
store属性
index属性
null_value属性
analyzer属性
include_in_all属性
format属性

更多属性：https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-boost.html

第三百六十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理

4、创建索引(相当于创建数据库)、创建表、创建字段-设置字段类型，添加数据

说明：

#创建索引(设置字段类型)

PUT jobbole                         #创建索引设置索引名称

{

  "mappings": {                     #设置mappings映射字段类型

    "job": {                        #表名称

      "properties": {               #设置字段类型

        "title":{                   #title字段

          "type": "text"            #text类型，text类型可以分词，建立倒排索引

        },

        "salary_min":{              #salary_min字段

          "type": "integer"         #integer数字类型

        },

        "city":{                    #city字段

          "type": "keyword"         #keyword普通字符串类型

        },

        "company":{                 #company字段，是嵌套字段

          "properties":{            #设置嵌套字段类型

            "name":{                #name字段

              "type":"text"         #text类型

            },

            "company_addr":{        #company_addr字段

              "type":"text"         #text类型

            },

            "employee_count":{      #employee_count字段

              "type":"integer"      #integer数字类型

            }

          }

        },

        "publish_date":{            #publish_date字段

          "type": "date",           #date时间类型

          "format":"yyyy-MM-dd"     #yyyy-MM-dd格式化时间样式

        },

        "comments":{                #comments字段

          "type": "integer"         #integer数字类型

        }

      }

    }

  }

}

#保存文档(相当于数据库的写入数据)

PUT jobbole/job/1                       #索引名称/表/id

{

  "title":"python分布式爬虫开发",       #字段名称：字段值

  "salary_min":15000,                   #字段名称：字段值

  "city":"北京",                        #字段名称：字段值

  "company":{                           #嵌套字段

    "name":"百度",                      #字段名称：字段值

    "company_addr":"北京市软件园",      #字段名称：字段值

    "employee_count":50                 #字段名称：字段值

  },

  "publish_date":"2017-4-16",           #字段名称：字段值

  "comments":15                         #字段名称：字段值

}

代码：

#创建索引(设置字段类型)

PUT jobbole

{

  "mappings": {

    "job": {

      "properties": {

        "title":{

          "type": "text"

        },

        "salary_min":{

          "type": "integer"

        },

        "city":{

          "type": "keyword"

        },

        "company":{

          "properties":{

            "name":{

              "type":"text"

            },

            "company_addr":{

              "type":"text"

            },

            "employee_count":{

              "type":"integer"

            }

          }

        },

        "publish_date":{

          "type": "date",

          "format":"yyyy-MM-dd"

        },

        "comments":{

          "type": "integer"

        }

      }

    }

  }

}

#保存文档(相当于数据库的写入数据)

PUT jobbole/job/1

{

  "title":"python分布式爬虫开发",

  "salary_min":15000,

  "city":"北京",

  "company":{

    "name":"百度",

    "company_addr":"北京市软件园",

    "employee_count":50

  },

  "publish_date":"2017-4-16",

  "comments":15

}

5、获取索引下的mappings映射字段类型

#获取一个索引下的所有表的mappings映射字段类型

GET jobbole/_mapping

#获取一个索引下的指定表的mappings映射字段类型

GET jobbole/_mapping/job

第三百六十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理

【重点】在创建索引时一旦给字段设置了类型后就不可修改了，如果必须要修改就的重新创建索引，所以在创建索引时就必须确定好字段类型

第三百六十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理的更多相关文章

第三百六十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索的自动补全功能
第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—用Django实现搜索的自动补全功能 elasticsearch(搜索引擎)提供了自动补全接口官方说明:https://www.e ...
第三百六十三节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mget和bulk批量操作
第三百六十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mget和bulk批量操作注意:前面讲到的各种操作都是一次http请求操作一条数据,如果想 ...
第三百五十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详 ...
第三百五十三节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy的暂停与重启
第三百五十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy的暂停与重启 scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的UR ...
第三百六十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能
第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能 Django实现搜索功能 1.在Django配置搜索结果页的路由映 ...
第三百六十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的bool组合查询
第三百六十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的bool组合查询 bool查询说明 filter:[],字段的过滤,不参与打分must:[] ...
第三百六十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询
第三百六十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询 1.elasticsearch(搜索引擎)的查询 elasticsearch是功能 ...
第三百六十节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本概念
第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本概念 elasticsearch的基本概念 1.集群:一个或者多个节点组织在一起 2.节点 ...
第三百六十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中前面我们讲到的elasticsearch( ...

随机推荐

redis配置文件redis&period;conf说明
redis.conf 配置项说明如下:1. Redis默认不是以守护进程的方式运行,可以通过该配置项修改,使用yes启用守护进程 daemonize no2. 当Redis以守护进程方式运行时, ...
Unknown class in Interface Builder file 解决方案
在用swift项目打包Framework时,在项目中使用包时,报错: Unknown class in Interface Builder file... 网上很多解决方案,都不适合我的场景最终解决 ...
uva 796 Critical Links（无向图求桥）
https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem& ...
S&ZeroWidthSpace;Q&ZeroWidthSpace;L&ZeroWidthSpace; &ZeroWidthSpace;S&ZeroWidthSpace;e&ZeroWidthSpace;r&ZeroWidthSpace;v&ZeroWidthSpace;e&ZeroWidthSpace;r&ZeroWidthSpace;中&ZeroWidthSpace;&ZeroWidthSpace;的&ZeroWidthSpace;P&ZeroWidthSpace;W&ZeroWidthSpace;D&ZeroWidthSpace;E&ZeroWidthSpace;N&ZeroWidthSpace;C&ZeroWidthSpace;R&ZeroWidthSpace;Y&ZeroWidthSpace;P&ZeroWidthSpace;T&ZeroWidthSpace;与&ZeroWidthSpace;P&ZeroWidthSpace;W&ZeroWidthSpace;D&ZeroWidthSpace;C&ZeroWidthSpace;O&ZeroWidthSpace;M&ZeroWidthSpace;P&ZeroWidthSpace;A&ZeroWidthSpace;R&ZeroWidthSpace;E&ZeroWidthSpace;函&ZeroWidthSpace;数
前幾天有個客戶的網站出問題(不是我們開發的),請我們幫他看,主要的問題是他們的網站會員在進行查詢密碼時,會員收到信的時候在密碼的欄位竟然會出現 System.Binary[] 字樣.而我進去資料庫中查 ...
ipython及Python初体验
阅读目录: Python环境体验 Python编辑器 ipython安装 Python提示符 Python初体验 print和变量变量操作内建函数:方法数学运算:简单算术.随机数关于模块一. ...
mysql基本知识点梳理和查询优化
目录一.索引相关二.EXPLIAN中有用的信息三.字段类型和编码四.SQL语句总结五.踩坑六.千万大表在线修改七.慢查询日志八.查看sql进程和杀死进程九.一些数据库性能的思考本文 ...
vmdk转qcow2格式
关闭vm 多文件格式转换成单文件格式vmdk 进入cmd命令行模式的窗口进入VMware workstations的安装路径下 vmware-vdiskmanager.exe -r "E: ...
Spring &lt&semi;context&colon;annotation-config&gt&semi; 与&lt&semi;context-component-scan&gt&semi; 的作用
<context:annotation-config> 与<context-component-scan> 的作用 <context:annotation-config& ...
java获取map中的最小KEY，最小VALUE
import java.util.Arrays; import java.util.Collection; import java.util.HashMap; import java.util.Map ...
git 检查是否有commit到本地但还没push的代码
使用 git status 命令可以得到以下结果 $ git status On branch dev_getTicketCnt Your branch is ahead of 'origin/mas ...