文件名称:datalake-etl-pipeline:使用Apache Spark的Hadoop中简化的ETL过程。 具有用于datalake的完整ETL管道。 SparkSession扩展,DataFrame验证,列扩展,SQL函数和DataFrame转换
文件大小:737KB
文件格式:ZIP
更新时间:2024-02-27 08:23:52
python big-data spark apache-spark hadoop
Datalake ETL管道 简化了任何数据平台的数据转换。 Features:该软件包具有完整的ETL过程- 使用元数据,转换和数据模型信息来设计ETL管道 建立目标转换SparkSQL和Spark Dataframes 构建源和目标Hive DDL 验证DataFrames,扩展核心类,定义DataFrame转换并提供UDF SQL函数。 支持ETL管道的以下基本转换- 过滤源和目标数据框 在源和目标数据帧上进行分组和聚合 大量嵌套的查询/数据框 具有复杂且高度嵌套的XML,JSON,Parquet和ORC解析器到第n级嵌套 在功能/方法级别上设计了单元测试用例并衡量源代码覆盖
【文件预览】:
datalake-etl-pipeline-master
----setup.py(1KB)
----.gitignore(3KB)
----documentation()
--------images()
--------PysparkLocalSetup.docx(551KB)
--------apidocumentation.html(25KB)
--------setup.html(8KB)
--------APIDOC.MD(7KB)
--------SETUP.MD(5KB)
----requirements.txt(2KB)
----src()
--------etl()
--------objects()
--------__init__.py(0B)
--------resources()
--------pipeline_jobs()
--------utils()
--------datawarehousing()
--------mapper()
--------kafka()
--------main.py(77B)
--------imports()
----LICENSE(11KB)
----README.md(1KB)
----test()
--------aws_test()
--------XmlMapperTest.py(2KB)
--------__init__.py(0B)
--------resources()
--------EtlTransformTest.py(1KB)
--------UtilsTest.py(1KB)