Data-Pipeline-Airflow

时间:2024-03-26 00:29:13
【文件属性】:

文件名称:Data-Pipeline-Airflow

文件大小:19KB

文件格式:ZIP

更新时间:2024-03-26 00:29:13

Python

数据管道气流 项目描述 一家音乐流媒体公司Sparkify决定是时候向其数据仓库ETL管道引入更多的自动化和监视功能,并得出结论,达到此目的的最佳工具是Apache Airflow。 他们已决定将您带入项目,并期望您创建可动态使用可重用任务构建,可监控并允许轻松回填的高级数据管道。 他们还指出,在数据仓库顶部执行分析并希望在执行ETL步骤以捕获数据集中的任何差异之后针对其数据集运行测试时,数据质量起着重要作用。 源数据位于S3中,需要在Amazon Redshift中的Sparkify数据仓库中进行处理。 源数据集由JSON日志(有关应用程序中的用户活动)和有关用户收听的歌曲的JSON元数据组成。 资料说明 歌曲数据第一个数据集是“百万歌曲”数据集中的真实数据的子集。 每个文件均为JSON格式,并包含有关歌曲和该歌曲的歌手的元数据。 这些文件按每首歌曲的曲目ID的前三个字母进行分区。


【文件预览】:
Data-Pipeline-Airflow-master
----plugins()
--------operators()
--------__init__.py(473B)
--------helpers()
--------__pycache__()
----create_tables.sql(2KB)
----README.md(4KB)
----dags()
--------udac_example_dag.py(3KB)
--------__pycache__()

网友评论