【文件属性】:
文件名称:workshop-spark-on-aws:来自 Apache Spark on Amazon EMR 研讨会的代码和脚本
文件大小:7KB
文件格式:ZIP
更新时间:2021-06-17 19:19:10
Shell
Apache Spark 和 Amazon EMR 研讨会
这些脚本来自 Apache Spark on Amazon EMR 研讨会,由 Tetra Concepts 的首席数据科学家 JT Halbert 和 Amazon 的 Jason Morris 领导。
研讨会使用的数据集是来自的 ENRON 电子邮件数据集
课程大纲
涵盖的主题包括:
在本地安装 Spark
使用 Amazon 的 Elastic MapReduce 部署 Spark 实例
弹性分布式数据集基础理论
在 Spark Shell 中使用 Spark 进行数据探索
在 Scala 中使用 Spark 的核心 API
使用 Spark 的 PairRDD 函数
在 Spark 集群上部署作业
如何访问日志和诊断正在运行的作业
用法
通过研讨会的粗略步骤是:
如果您还没有安装awscli和ssh
运行dem
【文件预览】:
workshop-spark-on-aws-master
----demo.sh(2KB)
----bashrc(2KB)
----followalong.scala(5KB)
----gitignore(79B)
----start-spark.sh(611B)
----README.md(1KB)
----setup.sh(3KB)