文件名称:Datawarehouse
文件大小:4KB
文件格式:ZIP
更新时间:2024-04-07 21:01:46
Python
数据仓库 介绍 在这个项目中,一家名为Sparkify的新兴公司正在成长,仅通过迁移到云中就可以满足其数据库需求。数据工程团队的任务是建立ETL管道,该管道从S3中的JSON日志中提取信息,并从其应用程序中提取JSON元数据,并将其持久化到托管在AWS Redshift上的PostgresSQL DB。 架构图 有一个事实表(歌曲播放)和四个维度表(歌曲,用户,艺术家和时间) 在Redshift上实现数据库的步骤 在sql_queries.py中为每个表写出CREATE / DROP SQL语句 创建Redshift集群和IAM角色 在dwh.cfg文件中输入必要的信息(主机,数据库名称,数据库用户,数据库密码,数据库端口),这将使我们能够将变量输入到create_tables.py中,以便我们可以连接到postgres数据库 必须写出复制逻辑,以便将S3数据移至Redshift上的登台表
【文件预览】:
Datawarehouse-main
----etl.py(727B)
----README.md(1KB)
----sql_queries (13).py(5KB)
----dwh.cfg(384B)
----create_tables.py(716B)