【文件属性】:
文件名称:pyspark_course:Udacity上PySpark MOOC的存储库
文件大小:39.88MB
文件格式:ZIP
更新时间:2021-02-18 01:27:19
Python
Udacity上的Spark MOOC存储库
这是Udacity上关于Spark的MOOC的存储库| |
设置
下载并安装Spark
通过pip安装pyspark : pip install pyspark
...或Anconda: conda install pyspark
Spark命令-如何启动本地主节点
在您的机器上,导航至: /usr/local/Cellar/apache-spark/2.4.5/libexec
启动主节点: ./sbin/start-master.sh -h < ip>
停止主节点: ./sbin/stop-master.sh
连接到AWS EMR实例
连接到实例:
ssh -i < path> / < key> .pem hadoop@ec2-# # #-###-###-###.comput
【文件预览】:
pyspark_course-main
----.gitignore(158B)
----README.md(2KB)
----quiz_modeltuning.py(2KB)
----data_wrangling.py(4KB)
----data_wrangling_sql.py(2KB)
----ml_with_spark.py(8KB)
----loading_data.py(770B)
----standalone_try.py(221B)
----data()
--------.DS_Store(6KB)
--------data.zip(39.86MB)
----spark_maps.py(850B)
----aws_spark_script.py(1KB)