datalake-etl-pipeline：使用Apache Spark的Hadoop中简化的ETL过程。具有用于datalake的完整ETL管道。 SparkSession扩展，DataFrame验证，列扩展，SQL函数和DataFrame转换下载

【文件属性】：

文件名称：datalake-etl-pipeline：使用Apache Spark的Hadoop中简化的ETL过程。具有用于datalake的完整ETL管道。 SparkSession扩展，DataFrame验证，列扩展，SQL函数和DataFrame转换

文件大小：737KB

文件格式：ZIP

更新时间：2024-02-27 08:23:52

python big-data spark apache-spark hadoop

Datalake ETL管道简化了任何数据平台的数据转换。 Features:该软件包具有完整的ETL过程- 使用元数据，转换和数据模型信息来设计ETL管道建立目标转换SparkSQL和Spark Dataframes 构建源和目标Hive DDL 验证DataFrames，扩展核心类，定义DataFrame转换并提供UDF SQL函数。支持ETL管道的以下基本转换- 过滤源和目标数据框在源和目标数据帧上进行分组和聚合大量嵌套的查询/数据框具有复杂且高度嵌套的XML，JSON，Parquet和ORC解析器到第n级嵌套在功能/方法级别上设计了单元测试用例并衡量源代码覆盖

立即下载

【文件预览】：
datalake-etl-pipeline-master
----setup.py(1KB)
----.gitignore(3KB)
----documentation()
--------images()
--------PysparkLocalSetup.docx(551KB)
--------apidocumentation.html(25KB)
--------setup.html(8KB)
--------APIDOC.MD(7KB)
--------SETUP.MD(5KB)
----requirements.txt(2KB)
----src()
--------etl()
--------objects()
--------__init__.py(0B)
--------resources()
--------pipeline_jobs()
--------utils()
--------datawarehousing()
--------mapper()
--------kafka()
--------main.py(77B)
--------imports()
----LICENSE(11KB)
----README.md(1KB)
----test()
--------aws_test()
--------XmlMapperTest.py(2KB)
--------__init__.py(0B)
--------resources()
--------EtlTransformTest.py(1KB)
--------UtilsTest.py(1KB)

秒客网

datalake-etl-pipeline：使用Apache Spark的Hadoop中简化的ETL过程。具有用于datalake的完整ETL管道。 SparkSession扩展，DataFrame验证，列扩展，SQL函数和DataFrame转换

网友评论

相关文章

datalake-etl-pipeline：使用Apache Spark的Hadoop中简化的ETL过程。 具有用于datalake的完整ETL管道。 SparkSession扩展，DataFrame验证，列扩展，SQL函数和DataFrame转换

网友评论

相关文章

datalake-etl-pipeline：使用Apache Spark的Hadoop中简化的ETL过程。具有用于datalake的完整ETL管道。 SparkSession扩展，DataFrame验证，列扩展，SQL函数和DataFrame转换