data-analysis:数据分析项目

时间:2024-04-28 01:11:41
【文件属性】:

文件名称:data-analysis:数据分析项目

文件大小:653KB

文件格式:ZIP

更新时间:2024-04-28 01:11:41

JupyterNotebook

数据分析 数据科学项目 Yelp SQL分析(SQL) 我的目标是使用SQL查询对Yelp数据集执行多种分析。 对于该项目,所有查询均在SQLite而非MySQL上执行。 该项目的第一部分包括数据概要分析和数据检索。 该作业的第二部分围绕分析模式和根据数据集做出预测。 我执行了聚合命令,并将多个表连接在一起以识别数据趋势。 SparkSQL ML预测(SQL,Python) 在这个项目中,我的目标是使用逻辑回归模型来预测SQL表中的Call_type_Group 。 该项目是在DataBricks上执行的,并使用了Apache Spark集群。 我首先必须清理和过滤数据,以便仅显示相关数据。 然后,我将SparkDF转换为熊猫,以将其预先格式化为sklearn。 然后,我使用OHE创建了一个管道,然后将其保存到磁盘上。 然后,我最终使用了给我的UDF创建了一个临时视图,其中的另一列包


【文件预览】:
data-analysis-master
----aaracismanalysis.ipynb(132KB)
----Yelp SQL Analysis.txt(16KB)
----GDP vs Unemployment Over Time.ipynb(49KB)
----abba.png(48KB)
----SparkSQL ML Predictions (Databricks).html(504KB)
----RamenRatings.ipynb(35KB)
----Boston Housing Statistical Data Analysis.ipynb(77KB)
----SparkSQL ML Predictions.sql(10KB)
----README.md(3KB)
----Order+View Binary Testing(3KB)
----Yelp_ER.png(158KB)
----Covid19VaccinationAnalysis.ipynb(455KB)

网友评论