文件名称:Data-warehouse:udacity数据工程师,纳米学位,aws redshift
文件大小:12KB
文件格式:ZIP
更新时间:2024-05-02 13:04:12
Python
使用AWS Redshift构建数据仓库 在此项目中,我们使用AWS redshift为一家名为spartify的公司启动了一个云数据仓库。 Sparkify是一款音乐应用程序,具有一个日志文件,其中包含用户格式为JSON的用户的歌曲播放活动。 我们还会使用包含歌曲信息的文件。 该歌曲的数据库称为“ 。 这些文件存储在AWS S3存储桶中。 我们使用以下步骤完成了任务: 打开一个AWS redshift集群以存储我们的数据库。 连接到集群并创建表。 该数据库是使用星型模式设计的。 将数据从AWS S3存储桶传输到登台表,然后将数据从登台表插入数据库。 create_tables.py是我们首先运行以连接到Redshift集群并创建表的文件。 dwh.cfg包含用于连接到dwh.cfg的登录信息,以及数据在S3中的存储位置。 etl.py是将数据从S3复制并转换为etl.py到数据
【文件预览】:
Data-warehouse-main
----create_tables.py(1KB)
----dwh.cfg(341B)
----__pycache__()
--------sql_queries.cpython-36.pyc(9KB)
----etl.py(1KB)
----sql_queries.py(9KB)
----.workspace-config.json(20B)
----.ipynb_checkpoints()
--------dwh-checkpoint.cfg(341B)
--------create_tables-checkpoint.py(1KB)
--------etl-checkpoint.py(1KB)
--------sql_queries-checkpoint.py(9KB)
--------README-checkpoint.md(2KB)
----README.md(3KB)