Udacity-Data-Engineering-datalake-with-aws-spark:Udacity Data Engineering的第4个项目，使用AWS Spark服务构建Data Lake下载

【文件属性】：

文件名称：Udacity-Data-Engineering-datalake-with-aws-spark:Udacity Data Engineering的第4个项目，使用AWS Spark服务构建Data Lake

文件大小：34KB

文件格式：ZIP

更新时间：2024-05-02 05:35:33

Python

带有AWS Spark的数据湖 Udacity Data Engineering的第4个项目，使用AWS Spark服务构建Data Lake。该项目在spark AWS S3 Bucket和Amazon spark中实现了Data Lake。了解要解决的问题资料说明建模数据湖项目结构 ETL描述运行ETL管道问题理解为S3上托管的数据湖构建ETL管道。从S3存储桶中加载数据，使用Aws服务中托管的Spark将数据处理到分析表中，然后再将其加载回S3中。资料说明该项目使用“，该是免费提供的音频功能和元数据的集合，包含一百万条当代流行音乐曲目（300 GB）。此数据开放供探索和研究，并且对于该项目，将仅使用来自歌曲数据库的样本和json格式的艺术家信息。歌曲数据集： Json文件位于/ data / song_data目录下。文件格式为： {"num_son

立即下载

【文件预览】：
Udacity-Data-Engineering-datalake-with-aws-spark-main
----images()
--------dataLake_model.png(30KB)
----dl.cfg(47B)
----README.md(4KB)
----etl.py(7KB)

秒客网

Udacity-Data-Engineering-datalake-with-aws-spark:Udacity Data Engineering的第4个项目，使用AWS Spark服务构建Data Lake

网友评论

相关文章