文件名称:Udacity-Data-Engineering-datalake-with-aws-spark:Udacity Data Engineering的第4个项目,使用AWS Spark服务构建Data Lake
文件大小:34KB
文件格式:ZIP
更新时间:2024-05-02 05:35:33
Python
带有AWS Spark的数据湖 Udacity Data Engineering的第4个项目,使用AWS Spark服务构建Data Lake。 该项目在spark AWS S3 Bucket和Amazon spark中实现了Data Lake。 了解要解决的问题 资料说明 建模数据湖 项目结构 ETL描述 运行ETL管道 问题理解 为S3上托管的数据湖构建ETL管道。 从S3存储桶中加载数据,使用Aws服务中托管的Spark将数据处理到分析表中,然后再将其加载回S3中。 资料说明 该项目使用“,该是免费提供的音频功能和元数据的集合,包含一百万条当代流行音乐曲目(300 GB)。 此数据开放供探索和研究,并且对于该项目,将仅使用来自歌曲数据库的样本和json格式的艺术家信息。 歌曲数据集: Json文件位于/ data / song_data目录下。 文件格式为: {"num_son
【文件预览】:
Udacity-Data-Engineering-datalake-with-aws-spark-main
----images()
--------dataLake_model.png(30KB)
----dl.cfg(47B)
----README.md(4KB)
----etl.py(7KB)