Data-Lake-with-Spark:带有Spark的Data Lake

时间:2024-04-26 14:06:15
【文件属性】:

文件名称:Data-Lake-with-Spark:带有Spark的Data Lake

文件大小:44KB

文件格式:ZIP

更新时间:2024-04-26 14:06:15

Python

使用Spark构建Data Lake的示例项目 启动预装了Spark的AWS EMR集群 使用PySpark创建了ETL管道 创建了1个事实表和4个维表作为实木复合地板文件加载回S3。 笔记 Song metadata是最初来自http://millionsongdataset.com/的子集。 Log data集正在模拟一个名为Sparkify的虚构音乐流应用程序上的用户活动。 这两个数据集都位于Udacity的S3存储桶中,可以在以下位置找到: s3://udacity-dend/log_data s3://udacity-dend/song_data ETL管道 ETL管道etl.py使用Python(PySpark)和Spark SQL: 从s3中提取json文件 将它们转换为PySpark DataFrames 将它们作为拼花文件重新加载到s3中,以进行分析 运行ET


【文件预览】:
Data-Lake-with-Spark-main
----dl.cfg(47B)
----README.md(2KB)
----starschema.png(47KB)
----etl.py(7KB)

网友评论