spark-movies-etl:Spark数据管道,用于摄取和转换电影数据

时间:2021-04-17 19:14:20
【文件属性】:
文件名称:spark-movies-etl:Spark数据管道,用于摄取和转换电影数据
文件大小:15KB
文件格式:ZIP
更新时间:2021-04-17 19:14:20
Python 火花电影等 数据管道提取并转换电影数据集: 第一个任务将数据集从raw存储区(json)提取到standardised (镶木地板)中。 后续的任务,从消费的数据集standardised ,执行转换和业务逻辑,并持续到curated 。 执行指令 该仓库包含一个带有以下选项的Makefile : setup :创建本地虚拟环境并安装测试要求(前提条件: python3可执行文件)。 build :构建应用程序转轮和压缩的依赖项,并通过spark-submit进行分发。 clean :清理构建文件。 test-unit :运行单元测试(pytest)。 check-types :检查类型提示(mypy)。 lint :皮棉代码(flake8)。 run-local :在本地运行应用程序。 用法示例: make run-local task=ingest make run-
【文件预览】:
spark-movies-etl-master
----movies_etl()
--------executor.py(1KB)
--------main.py(647B)
--------__init__.py(0B)
--------tasks()
--------config()
----data_lake()
--------raw()
--------curated()
--------standardised()
----requirements.txt(16B)
----requirements-test.txt(103B)
----setup.py(417B)
----README.md(911B)
----Makefile(1KB)
----tests()
--------__init__.py(0B)
--------unit()
----.gitignore(2KB)

网友评论