Data-Lake-with-Spark:带有Spark的Data Lake下载

【文件属性】：

文件名称：Data-Lake-with-Spark:带有Spark的Data Lake

文件大小：44KB

文件格式：ZIP

更新时间：2024-04-26 14:06:15

Python

使用Spark构建Data Lake的示例项目启动预装了Spark的AWS EMR集群使用PySpark创建了ETL管道创建了1个事实表和4个维表作为实木复合地板文件加载回S3。笔记 Song metadata是最初来自http://millionsongdataset.com/的子集。 Log data集正在模拟一个名为Sparkify的虚构音乐流应用程序上的用户活动。这两个数据集都位于Udacity的S3存储桶中，可以在以下位置找到： s3://udacity-dend/log_data s3://udacity-dend/song_data ETL管道 ETL管道etl.py使用Python（PySpark）和Spark SQL：从s3中提取json文件将它们转换为PySpark DataFrames 将它们作为拼花文件重新加载到s3中，以进行分析运行ET

立即下载

【文件预览】：
Data-Lake-with-Spark-main
----dl.cfg(47B)
----README.md(2KB)
----starschema.png(47KB)
----etl.py(7KB)

秒客网

Data-Lake-with-Spark:带有Spark的Data Lake

网友评论

相关文章