文件名称:ETL_with_Pyspark_-_SparkSQL:一个示例项目,旨在使用Apache Spark中的Pyspark和Spark SQL API演示ETL过程
文件大小:118KB
文件格式:ZIP
更新时间:2024-06-13 17:28:27
azure azure-data-factory azure-databricks HTML
ETL_with_Pyspark _-_ SparkSQL 一个示例项目,旨在使用Apache Spark中的Pyspark和Spark SQL API演示ETL过程。 在这个项目中,我使用了Apache Sparks的Pyspark和Spark SQL API来对数据实施ETL过程,最后将转换后的数据加载到目标源。 我已经使用Azure Databricks运行笔记本并为笔记本创建作业。 为了协调整个工作流程,我使用了Azure数据工厂来创建管道。 注意:天蓝色部署的任何资源都涉及相关价格。 因此,用户全权负责创建和部署资源以实现天蓝色,并负责所有可能产生的费用。 ------------------- ************************ ------- ------------ main_latest分支: 该分支包含位于main_old分支下的主项目的更新
【文件预览】:
ETL_with_Pyspark_-_SparkSQL-main_latest
----Dim_Sales_customers.html(190KB)
----Sales_Load_Data.html(195KB)
----Sales-Dataflow_orchestrator.html(214KB)
----index.html(180KB)
----Sales_Load_Initiator.html(182KB)
----README.md(1KB)