spark-ais-multi:使用 SparkSQL 导入、分区和查询 AIS 数据

时间:2024-07-14 03:19:07
【文件属性】:

文件名称:spark-ais-multi:使用 SparkSQL 导入、分区和查询 AIS 数据

文件大小:22.2MB

文件格式:ZIP

更新时间:2024-07-14 03:19:07

Python

使用 SparkSQL 导入、分区和查询 AIS 数据 这个基于的项目由多个容器组成,用于实现数据的导入、分区和查询。 解析原始 CSV AIS 数据,并根据广播时间戳,将记录以hdfs:///yyyy/mm/dd/ais.csv的形式放入多个路径中,其中yyyy为年份, mm为月和dd是日。 HDFS 由它自己的 docker 容器提供服务。 外部表映射到这些 HDFS 路径上,以便可以使用查询 AIS 记录。 后者使用在同一个 HDFS 容器中执行,并作为公开。 Hive 位于数据库中,并从其自己的容器中提供服务。 临时导入过程在另一个容器中执行,该容器从映射到主机文件系统的卷中读取数据。 记录根据其数据/时间字段进行解析和分区,并使用多输出写入器写入 HDFS。 最后, 用于使用 Hive Server 2 节俭协议通过查询和呈现数据。 我在 Mac 上使用来启动这个项目。 提示


【文件预览】:
spark-ais-multi-master
----docker()
--------.dockerignore(24B)
--------hive-template.xml(849B)
--------create-table.sh(850B)
--------Dockerfile(1KB)
--------start-all.sh(1019B)
--------log4j.properties(611B)
--------core-template.xml(281B)
--------db.sh(56B)
--------dp.sh(43B)
--------stop-all.sh(250B)
--------yarn-template.xml(1KB)
--------dr.sh(92B)
--------spark-sql.sh(155B)
----src()
--------main()
----images()
--------arcmap.png(115KB)
--------overview.png(72KB)
----LICENSE(11KB)
----README.md(8KB)
----pom.xml(10KB)
----data()
--------ais.csv.zip(22MB)
----.gitignore(167B)
----dr.sh(224B)

网友评论