elasticsearch概念及倒排索引简单介绍

时间:2021-07-31 22:20:59

一.概念

  集群:一个或者多个节点组织在一起

  节点:一个节点是集群中的一个服务器,由一个名字来标识,默认是一个随机的漫威角色名字。

  分片:将索引划分为多份的能力,允许水平分割和扩展容量,多个分片相应请求,提高性能和吞吐量。

  副本:创建分片的一份或多份的能力,在一个节点失败,其余节点可以顶上。

二.elasticsearch也需要存取数据,与mysql对比

elasticsearch mysql
index(索引) 数据库
type(类型)
documents(文档)
fields()

三.倒排索引:

  1.百度百科:

    倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。

  2.我的理解:

    简单理解:会对每个文件分词,建立的是分词(Term)和文档(Document)之间的映射关系,在倒排索引中,数据是面向词(Term)而不是面向文档的。如:

关键词 倒排列表

django

文章1,文章2......(是一个列表)
Python 文章2,文章3......
scrapy 文章4,文章5......

    但是这样还不够,有的文章关键词(如python)出现的次数不一样,权重也不一样,因此有如下的结构(倒排列表中分别对应文章,关键词出现的位置以及关键词出现的频率【TF:词频】):

关键词 倒排列表
python (文章1,<2,10>,2
Python (文章2,<5,10,30,45>,4
scrapy (文章4,<5>,1

  3.倒排索引需要解决的问题(elasticsearch已解决):

    (1)大小写转换的问题,如python和PYTHON应该视作同一个词;

    (2)词干提取,looking和look应该视作同一个词;

    (3)分词:如屏蔽系统应该分为“屏蔽”,“系统”还是”屏蔽系统“;

    (4)倒排索引文件过大,应压缩解码