cloud_datawarehouse_with_redshift:为一家名为Sparkify的虚构公司设计云数据仓库

时间:2024-04-07 23:52:18
【文件属性】:

文件名称:cloud_datawarehouse_with_redshift:为一家名为Sparkify的虚构公司设计云数据仓库

文件大小:8KB

文件格式:ZIP

更新时间:2024-04-07 23:52:18

Python

使用Redshift的云数据仓库 该项目的主要任务是为一家名为Sparkify的虚构公司设计一个云数据仓库,该公司是一个像Spotify / Pandora这样的音乐流媒体平台。 Sparkify已在其网站上记录了有关用户行为的数据。有关的日志数据,歌曲数据和JSON元数据。该数据位于Amazon S3存储桶中。 任务是设计一个维度数据模型和ETL管道,以使用Amazon Redshift作为数据存储来构建数据仓库,以便分析团队可以方便地处理数据。 使用的技术 数据集 日志数据集 该数据集由JSON格式的用户行为日志组成。它根据年份和月份进行分区。以下是数据集中示例json文件的路径示例。 log_data/2018/11/2018-11-12-events.json log_data/2018/11/2018-11-13-events.json 此数据是由此根据下一部分中讨论的Song


【文件预览】:
cloud_datawarehouse_with_redshift-main
----code()
--------delete_cluster.py(867B)
--------create_tables.py(2KB)
--------etl.py(2KB)
--------create_cluster.py(5KB)
--------queries.py(7KB)
----.gitignore(86B)
----README.md(2KB)

网友评论