使用IntelliJ IDEA编写Scala在Spark中运行

环境说明：hadoop-2.2.0+spark-1.1.0
hadoop是完全分布式，spark是standalone。在master节点master1上安装了IntelliJ IDEA。

1、开启spark

进入到spark的sbin目录,./start-all.sh命令开启spark。
注意：因为演示的是SparkPi demo，无需从hdfs读取数据，所以没有启动hadoop。可以根据需要启动hadoop。

2、在IntelliJ IDEA中新建SparkTest工程

将spark提供的SparkPi.scala文件中的内容拷贝到工程中（package语句除外）如下图所示。
使用IntelliJ IDEA编写SparkPi直接在Spark中运行

2.1、在工程中引入spark-assembly-1.1.0-hadoop2.2.0.jar

“File”->”Project Structure”->”Libraries”->绿色加号->”java”,在弹出页面中到spark/lib目录下找到spark-assembly-1.1.0-hadoop2.2.0.jar，”OK”。如下图所示
使用IntelliJ IDEA编写SparkPi直接在Spark中运行

3、修改代码

如下图所示
使用IntelliJ IDEA编写SparkPi直接在Spark中运行
conf.setMaster()是告诉程序我们的spark集群的master节点。
spark.addJar()是指出本程序打成jar后所在的位置。spark在执行任务时会去这个位置取这个jar包。
注意：这两处的内容需要根据实际情况修改。

4、打jar包

“File”->”Project Structure”->”Artifacts”->绿色加号->”JAR”->”From modules with dependencies”
使用IntelliJ IDEA编写SparkPi直接在Spark中运行

在Main_Class这里选择SpartTest工程的main函数。然后“OK”，出现如下页面

页面中Output directory就是SparkTest工程打成jar包之后的存放目录
所以第3步中spark.addJar()方法的参数就是 Output directory+工程名.jar。点击”OK”后回到工程页面。
“Build”->”Build Artifacts”->”SparkTest:jar”->”Rebuild”
使用IntelliJ IDEA编写SparkPi直接在Spark中运行

下面就等待jar包导出。