Apache-pyspark-hadoop-using-databricks:说明使用pyspark执行的一些基本活动，并使用MLlib API执行一些机器学习（ML）算法下载

【文件属性】：

文件名称：Apache-pyspark-hadoop-using-databricks:说明使用pyspark执行的一些基本活动，并使用MLlib API执行一些机器学习（ML）算法

文件大小：80KB

文件格式：ZIP

更新时间：2024-03-27 11:25:57

JupyterNotebook

Apache-pyspark-hadoop使用数据块说明使用pyspark执行的一些基本活动，并使用MLlib API执行一些机器学习（ML）算法发布在此存储库上的笔记本是使用databricks开发的，databricks是spark创始人创建的一个开源平台，您可以选择以下提到的其他平台： 1）在虚拟机/本地机上使用ubuntu（或） 2）AWS EC2（或） 3）AWS EMR（或） 4）数据砖。为了使用数据砖在此github存储库中执行笔记本，请创建一个社区版帐户，然后开始为您的spark环境创建一个集群。完成上述步骤后，进入笔记本部分，选择之前创建的集群，并确保已将输入数据以表格的形式上传到数据部分。请参考输入数据表的架构，并尝试根据每个功能的行更改其数据类型。最后，将要执行的笔记本文件上载到工作区中，一切顺利......

立即下载

【文件预览】：
Apache-pyspark-hadoop-using-databricks-main
----Basics of DataFrame()
--------people.json(73B)
--------Basics of Dataframes in spark.ipynb(19KB)
--------README.md(418B)
----Operation performed in dataframe()
--------Filtering using pyspark.ipynb(130KB)
--------README.md(584B)
--------appl_stock.csv(140KB)
----README.md(1KB)

秒客网

Apache-pyspark-hadoop-using-databricks:说明使用pyspark执行的一些基本活动，并使用MLlib API执行一些机器学习（ML）算法

网友评论

相关文章