文件名称:Springboard-Capstone
文件大小:533KB
文件格式:ZIP
更新时间:2024-04-14 22:47:08
JupyterNotebook
Springboard Capstone-*数据工程项目 客观的 为了更深入地了解DE概念和工具,我利用Wikipedia的大量数据集来构建数据管道。 技术概述 可以从以下访问来自Wikipedia的转储文件: : 。 原始转储文件可用: : 可以使用src文件夹中的dump_access.py批量下载这些文件。 可以在config.xml文件中更改日期范围。 运行脚本时,需要指示存储位置的参数。 python dump_access.py [存储目录] Springboard的首选云服务提供商是Microsoft Azure。 因此,我们将利用Azure Data Lake来存储数据。 每天大约有2 GB,因此一个月的数据量最终约为60 GB。 由于数据的大小,我正在使用PySpark来处理数据。
【文件预览】:
Springboard-Capstone-master
----data()
--------WikiEDA.ipynb(36KB)
----src()
--------config.xml(225B)
--------dump_access.py(4KB)
----doc()
--------ERD.png(31KB)
--------Springboard Capstone WIP.pptx(498KB)
----README.md(979B)