文件名称:STA9760_Yelp_Data_Analysis
文件大小:292KB
文件格式:ZIP
更新时间:2024-03-03 01:34:21
JupyterNotebook
分析10Gb的Yelp评论数据 For this project, I will be tasked with provisioning a Spark Cluster on AWS EMR for loading and running some analysis on Yelp’s Reviews and Businesses dataset (about 10gb) from Kaggle. I will run my analysis via Jupyter Notebook and the expected output artifact is a .ipynb file 第一部分:安装和初始设置 在这一部分中,我将导入必要的依赖项(pandas和matplotlib),并将我的数据集加载为pyspark数据框。 第二部分:分析类别 对于这一部分,您将尝试对与每个业务相关
【文件预览】:
STA9760_Yelp_Data_Analysis-master
----Analysis.ipynb(262KB)
----assets()
--------3.PNG(90KB)
--------README.md(51B)
--------2.PNG(92KB)
----README.md(7KB)