文件名称:data_engineering
文件大小:334KB
文件格式:ZIP
更新时间:2024-04-25 05:23:37
JupyterNotebook
项目简介: 这个项目是关于Postgres中的维度建模概念以及具有提取转换和加载数据的数据建模 数据库设计: 用于分析数据通过使用SQL和星型方案(也使用关系数据库),Sparkify还可以对其数据库执行广告分析。 ETL流程: 使用Sparkify分析他们的数据,创建了一个关系数据库架构,可以用ETL管道填充它。 所谓的星型方案使公司可以从多个维度查看用户行为。 事实表用于存储包含“ NextSong”类别的所有用户歌曲活动。 公司可以使用此表来关联和分析用户,歌曲,艺术家和时间的维度。 填充关系数据库,使用ETL管道,这使得可以从用户行为的日志文件中提取信息,以及将数据转换为模式。 事实表和尺寸表 项目存储库文件: data:包含歌曲和日志数据的文件夹create_tables.py:执行用于(重新)创建数据库和表SQL语句的Python脚本sql_queries.py:
【文件预览】:
data_engineering-main
----data-modeling-cassandra()
--------project_1b.ipynb(14KB)
--------image_event_datafile_new.jpg(360KB)
----README.md(2KB)
----data_engineering()
--------data-modeling-with-postgres()
----.gitignore(2KB)