文件名称:Udacity-Data-Engineering-Project-2:使用Redshift的云数据仓库
文件大小:78KB
文件格式:ZIP
更新时间:2024-04-03 15:51:01
项目:云数据仓库 音乐流初创公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 该项目旨在创建一个ETL管道,该管道从S3提取数据,在Redshift中进行分级,然后将数据转换为一组维度表,供分析团队使用,以继续寻找用户正在收听的歌曲的见解。 样本数据 地点 S3链接用于歌曲和日志的数据集: 歌曲数据: s3://udacity-dend/song_data 日志数据: s3://udacity-dend/log_data 日志数据json路径: s3://udacity-dend/log_json_path.json 歌曲数据 每个文件都位于JSON fomart日期文件中,其中包含有关歌曲和该歌曲的歌手的元数据。 {
【文件预览】:
Udacity-Data-Engineering-Project-2-main
----Untitled.ipynb(72B)
----etl.py(1007B)
----README.md(5KB)
----dwh.cfg(620B)
----sql_queries.py(7KB)
----database_schema_diagram.png(87KB)
----create_tables.py(834B)