文件名称:Apache-pyspark-hadoop-using-databricks:说明使用pyspark执行的一些基本活动,并使用MLlib API执行一些机器学习(ML)算法
文件大小:80KB
文件格式:ZIP
更新时间:2024-03-27 11:25:57
JupyterNotebook
Apache-pyspark-hadoop使用数据块 说明使用pyspark执行的一些基本活动,并使用MLlib API执行一些机器学习(ML)算法 发布在此存储库上的笔记本是使用databricks开发的,databricks是spark创始人创建的一个开源平台,您可以选择以下提到的其他平台: 1)在虚拟机/本地机上使用ubuntu(或) 2)AWS EC2(或) 3)AWS EMR(或) 4)数据砖。 为了使用数据砖在此github存储库中执行笔记本,请创建一个社区版帐户,然后开始为您的spark环境创建一个集群。 完成上述步骤后,进入笔记本部分,选择之前创建的集群,并确保已将输入数据以表格的形式上传到数据部分。 请参考输入数据表的架构,并尝试根据每个功能的行更改其数据类型。 最后,将要执行的笔记本文件上载到工作区中,一切顺利......
【文件预览】:
Apache-pyspark-hadoop-using-databricks-main
----Basics of DataFrame()
--------people.json(73B)
--------Basics of Dataframes in spark.ipynb(19KB)
--------README.md(418B)
----Operation performed in dataframe()
--------Filtering using pyspark.ipynb(130KB)
--------README.md(584B)
--------appl_stock.csv(140KB)
----README.md(1KB)