Elasticsearch批量导入本地Json文件Java实现

时间:2024-04-07 11:36:26

分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!

                     

题记

产品开发需要,我们需要将互联网采集的数据存储到ES中,以实现数据的全文检索。

互联网采集的数据,往往格式杂乱,需要先进行数据清洗操作。

而ES支持的入库格式,json格式数据会相对方便些。

本文主要介绍,如何将格式化的Json文件批量插入到ES中。

1、需提前做的工作

1)设计好索引以及Mapping;

Mapping的目的主要是——设定字段名称、字段类型,哪些字段需要进行全文检索等。
  • 1

2)Java程序中封装好类,和Mapping设定的字段一一对应。

2、批量导入步骤分解

步骤1:本地文件格式化,统一为Json格式。
          一个待导入的数据串,存成一个Json文件。

步骤2:放置在统一./data路径下。 目录结构如下示意:

     ./data                a_01.json                a_02.json                a_03.json                ...                a_100.json
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

步骤3:循环遍历./data文件获取包含绝对路径的文件全名,存入linkedlist中。

步骤4:遍历linkedlist的每个路径,获取Json信息。

步骤5:使用fastjson解析Json,解析成对应设计好的类个各个匹配字段。

步骤6:借助bulk**批量曹操API接口,完成本地文件的导入。

3、核心接口实现

/***@brief:遍历Json,批量插入ES**@param:空**@return:空*/ private static void insertBulkIndex() throws Exception {//Json文件的存储final String JSONFILEINPUT = ESConfig.es_json_path;logger.info("path = " + JSONFILEINPUT);LinkedList<String> curJsonList = FileProcess.getJsonFilePath(JSONFILEINPUT);logger.info("size = " + curJsonList.size());for (int i = 0; i < curJsonList.size(); ++i){//System.out.println(" i = " + i + " " + curJsonList.get(i));String curJsonPath = curJsonList.get(i);ImageInfo curImageInfo = JsonParse.GetImageJson(curJsonPath);//JsonParse.printImageJson(curImageInfo);if (curImageInfo == null){continue;}//遍历插入操作InsertIndex (curImageInfo);}}/***@brief:单条Json插入ES(借助了Jest封装后的API)**@param:空**@return:空*/private static void InsertIndex(AgeInfo ageInfo) throws Exception {JestClient jestClient = JestExa.getJestClient();JsonParse.PrintImageJson( ageInfo );Bulk bulk = new Bulk.Builder().defaultIndex("age_index").defaultType("age_type").addAction(Arrays.asList(new Index.Builder( ageInfo ).build())).build();  JestResult result = jestClient.execute(bulk);  if (result.isSucceeded()){  System.out.println("insert success!");  }else{  System.out.println("insert failed");  }}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48

最终实现效果为:

java -jar bulk_insert.jar ./data
  • 1

即可实现./data下的所有json循环遍历导入ES。

4、使用技术

1)文件遍历
2)Json解析
3)ES批量插入操作

5、遇到的坑

程序导出Jar包时候,生成jar包报错。
由于借助了Jest的源码工程,该工程是由Maven生成的。
生成jar包的时候,会一直提示:

“Java.long.ClassNotFoundException"
  • 1

初步定位原因:是maven导致,然后了pom.xml,错误依旧。
最终解决方案:重建工程,将代码和依赖的jar包重新导入即可。

后记

死磕ES,有问题欢迎大家提问探讨!

——————————————————————————————————
更多ES相关实战干货经验分享,请扫描下方【铭毅天下】微信公众号二维码关注。
(每周至少更新一篇!)

Elasticsearch批量导入本地Json文件Java实现
和你一起,死磕Elasticsearch
——————————————————————————————————

2017年07月23日 15:08 于家中床前

作者:铭毅天下 
转载请标明出处,原文地址: 
http://blog.csdn.net/laoyang360/article/details/75452953 
如果感觉本文对您有帮助,请点击‘顶’支持一下,您的支持是我坚持写作最大的动力,谢谢!

           

给我老师的人工智能教程打call!http://blog.csdn.net/jiangjunshow

Elasticsearch批量导入本地Json文件Java实现
                     

题记

产品开发需要,我们需要将互联网采集的数据存储到ES中,以实现数据的全文检索。

互联网采集的数据,往往格式杂乱,需要先进行数据清洗操作。

而ES支持的入库格式,json格式数据会相对方便些。

本文主要介绍,如何将格式化的Json文件批量插入到ES中。

1、需提前做的工作

1)设计好索引以及Mapping;

Mapping的目的主要是——设定字段名称、字段类型,哪些字段需要进行全文检索等。
  • 1

2)Java程序中封装好类,和Mapping设定的字段一一对应。

2、批量导入步骤分解

步骤1:本地文件格式化,统一为Json格式。
          一个待导入的数据串,存成一个Json文件。

步骤2:放置在统一./data路径下。 目录结构如下示意:

     ./data                a_01.json                a_02.json                a_03.json                ...                a_100.json
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

步骤3:循环遍历./data文件获取包含绝对路径的文件全名,存入linkedlist中。

步骤4:遍历linkedlist的每个路径,获取Json信息。

步骤5:使用fastjson解析Json,解析成对应设计好的类个各个匹配字段。

步骤6:借助bulk**批量曹操API接口,完成本地文件的导入。

3、核心接口实现

/***@brief:遍历Json,批量插入ES**@param:空**@return:空*/ private static void insertBulkIndex() throws Exception {//Json文件的存储final String JSONFILEINPUT = ESConfig.es_json_path;logger.info("path = " + JSONFILEINPUT);LinkedList<String> curJsonList = FileProcess.getJsonFilePath(JSONFILEINPUT);logger.info("size = " + curJsonList.size());for (int i = 0; i < curJsonList.size(); ++i){//System.out.println(" i = " + i + " " + curJsonList.get(i));String curJsonPath = curJsonList.get(i);ImageInfo curImageInfo = JsonParse.GetImageJson(curJsonPath);//JsonParse.printImageJson(curImageInfo);if (curImageInfo == null){continue;}//遍历插入操作InsertIndex (curImageInfo);}}/***@brief:单条Json插入ES(借助了Jest封装后的API)**@param:空**@return:空*/private static void InsertIndex(AgeInfo ageInfo) throws Exception {JestClient jestClient = JestExa.getJestClient();JsonParse.PrintImageJson( ageInfo );Bulk bulk = new Bulk.Builder().defaultIndex("age_index").defaultType("age_type").addAction(Arrays.asList(new Index.Builder( ageInfo ).build())).build();  JestResult result = jestClient.execute(bulk);  if (result.isSucceeded()){  System.out.println("insert success!");  }else{  System.out.println("insert failed");  }}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48

最终实现效果为:

java -jar bulk_insert.jar ./data
  • 1

即可实现./data下的所有json循环遍历导入ES。

4、使用技术

1)文件遍历
2)Json解析
3)ES批量插入操作

5、遇到的坑

程序导出Jar包时候,生成jar包报错。
由于借助了Jest的源码工程,该工程是由Maven生成的。
生成jar包的时候,会一直提示:

“Java.long.ClassNotFoundException"
  • 1

初步定位原因:是maven导致,然后了pom.xml,错误依旧。
最终解决方案:重建工程,将代码和依赖的jar包重新导入即可。

后记

死磕ES,有问题欢迎大家提问探讨!

——————————————————————————————————
更多ES相关实战干货经验分享,请扫描下方【铭毅天下】微信公众号二维码关注。
(每周至少更新一篇!)

Elasticsearch批量导入本地Json文件Java实现
和你一起,死磕Elasticsearch
——————————————————————————————————

2017年07月23日 15:08 于家中床前

作者:铭毅天下 
转载请标明出处,原文地址: 
http://blog.csdn.net/laoyang360/article/details/75452953 
如果感觉本文对您有帮助,请点击‘顶’支持一下,您的支持是我坚持写作最大的动力,谢谢!