文件名称:dend-project-3:Udacity数据工程纳米学位项目3:具有S3和Redshift的AWS ETL管道
文件大小:61KB
文件格式:ZIP
更新时间:2024-03-09 07:24:26
Python
| | 2020-11-23 项目3:AWS数据仓库 音乐流媒体创业公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 他们要求数据工程师建立一个ETL管道,该管道从S3提取数据,在Redshift中进行分级,然后将数据转换为一组维度表,供其分析团队使用,以继续寻找用户正在收听的歌曲的见解。 通过运行Sparkify分析团队提供给您的查询,并将您的结果与预期结果进行比较,您将能够测试数据库和ETL管道。 项目概况 在这个项目中,我将在数据仓库和AWS上学到的知识应用到Redshift上托管的数据库中构建ETL管道。 为了完成项目,我将数据从S3加载到Redshift上的登台表,然后将它们插入一组针对分析进行了优化的维度表。 最终
【文件预览】:
dend-project-3-main
----LICENSE.txt(1KB)
----requirements.txt(64B)
----etl.py(2KB)
----README.md(5KB)
----sql_queries.py(6KB)
----.gitignore(106B)
----create_tables.py(2KB)
----udacity-project-3-diagram.png(68KB)