跟我一起学Spark之——Windows10下spark2.3.0本地开发环境搭建-亲测

import org.apache.spark.{SparkConf, SparkContext}
/**
  *
  * @author migu-orrin on 2018/5/3.
  */
object WordCount {
  def main(args: Array[String]) {
    /**
      * SparkContext 的初始化需要一个SparkConf对象
      * SparkConf包含了Spark集群的配置的各种参数
      */
    val conf=new SparkConf()
      .setMaster("local")//启动本地化计算
      .setAppName("WordCount")//设置本程序名称

    //Spark程序的编写都是从SparkContext开始的
    val sc=new SparkContext(conf)
    //以上的语句等价与val sc=new SparkContext("local","testRdd")
    val data=sc.textFile("E:/data/wordcount.txt")//读取本地文件
    var result = data.flatMap(_.split(" "))//下划线是占位符，flatMap是对行操作的方法，对读入的数据进行分割
      .map((_,1))//将每一项转换为key-value，数据是key，value是1
      .reduceByKey(_+_)//将具有相同key的项相加合并成一个

    result.collect()//将分布式的RDD返回一个单机的scala array，在这个数组上运用scala的函数操作，并返回结果到驱动程序
      .foreach(println)//循环打印
    result.saveAsTextFile("E:/data/wordcountres")
  }
}

1.7.9打包运行

运行成功后，可以讲代码打包成jar 包发送到远端或者本地的spark 集群上运行。打包有以下步骤

点击“File“然后选择“project Structure“

然后如图所示进行如下操作 ,在弹出的对话框中点击按钮，选择主类进行如下4步操作。

由于我们的jar包实在spark 上运行的，故可以删除其他不需要的依赖包

注意：outputdirectory 的路径。此处是你导出 jar 的路径。

执行 bulid 构建你的jar

jar 包导出以后就可以在spark上运行了。包导出路径是在project structure的output directory：D:\hanrworkspace\mytest\out\artifacts\mytest_jar

此时进入终端，进入到spark安装包的 bin 目录下。执行如下命令:

spark-submit--class SparkPi --master spark://spark1:7077/D:/hanrworkspace/mytest/out/artifacts/mytest_jar/mytest.jar

注：

SparkPi：是启动类的名字，如果有包命，要加包名，（例如 com.edu.SparkPi）

spark1:7077 ：是你远端的spark 的地址，（spark1:7077为提交到本机测试）。

/D:/hanrworkspace/mytest/out/artifacts/mytest_jar/mytest.jar：是你jar 包的路径。

参考博客:

添加自己总结的部分，下面为借鉴博客原文地址：

https://blog.****.net/u011521890/article/details/78577582

https://my.oschina.net/orrin/blog/1812035

https://blog.****.net/huan_chen/article/details/78574835

https://blog.****.net/Gnd15732625435/article/details/81062381

https://blog.****.net/hambition/article/details/80769771?utm_source=copy

秒客网

跟我一起学Spark之——Windows10下spark2.3.0本地开发环境搭建-亲测

1.1 JDK1.8.0_171

1.2 hadoop-2.7.6

1.2.1 下载并解压

1.2.2 设置环境变量

1.2.3 支持windows运行

1.2.4 创建HADOOP数据存储目录

1.2.5 修改hadoop配置文件

1.2.6 格式化命名节点

1.2.7 启动hadoop

1.2.8 web ui界面查看

1.2.9 停止所有节点

1.3Spark-2.3.0

1.3.1 下载并解压

1.3.2 新建环境变量SPARK_HOME

1.3.3 运行SPARK

1.3.4 界面查看

1.4 Scala-2.11.8

1.5 Maven-3.5.3

1.6 IntelliJIDEA 安装

1.7 IDEA环境安装

1.7.1 安装idea

1.7.2 修改maven配置

1.7.3 Scala插件安装

1.7.4 全局JDK和Library的设置

1.7.5 配置全局的Scala SDK

1.7.6 新建maven项目

1.7.7 导入spark依赖

1.7.8编写sprak代码

1.7.9打包运行

相关文章