文件名称:项目实战——钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量(Java版本)
文件大小:168.81MB
文件格式:ZIP
更新时间:2023-11-14 15:47:22
elasticsearch hive spark 数据校验
此篇文章主要选取关键性指标,数据校验数据源Hive和目标ES内的数据是否一致; 因为你不知道将Hive的数据导入到了ElasticSearch后,数据量是否准确,所以需要钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量,注意,这个项目打包后,最好另起一个进程调用,并且开始时间为文章1或者2最大预估的结束时间后的10分钟后调用,这样可以校验两种情形: 1.ETL项目被调度了,但是造成了数据异常,可以捕捉到; 2.ETL项目压根就没起来,即超时了,造成了数据异常,亦可被捕捉!
【文件预览】:
DQ_SparkOnHiveToEs_v1
----firestorm.log(42KB)
----src()
--------main()
--------test()
----pom.xml(6KB)
----DQ_SparkOnHiveToEs_v1.iml(81B)
----target()
--------classes()
--------classes.timestamp(1B)
--------archive-tmp()
--------generated-test-sources()
--------test-classes.timestamp(1B)
--------maven-archiver()
--------surefire-reports()
--------generated-sources()
--------test-classes()
--------SparkOnHiveToEs_v1-1.0-SNAPSHOT-jar-with-dependencies.jar(186.29MB)
--------SparkOnHiveToEs_v1-1.0-SNAPSHOT.jar(15KB)
--------maven-status()
----.idea()
--------misc.xml(526B)
--------encodings.xml(267B)
--------workspace.xml(13KB)
--------scala_compiler.xml(202B)
--------uiDesigner.xml(9KB)
--------codeStyles()
--------compiler.xml(618B)
----spark-warehouse()