Spark集群环境的搭建

时间:2021-03-15 09:19:23

一、Scala环境的配置

1)登录scala的官网下载scala-2.10.5.tgz

2)将scala-2.10.5.tgz拷贝到master的/home/bms目录下

3)在/home/bms目录下解压scala-2.10.5.tgz。命令是:tar -zxvf scala-2.10.5.tgz

4)编辑master的/etc/profile文件,在其中添加如下两行配置

export SCALA_HOME=/home/bms/scala-2.10.5
export PATH=$PATH:$SCALA_HOME/bin

5)验证scala是否配置成功, 在命令行中输入如下命令: scala -version,如果正常配置会显示下面的内容:
Welcome to Scala version 2.10.5 (Java HotSpot(TM) 32-Bit Server VM, Java 1.7.0_80).
Type in expressions to have them evaluated.
Type :help for more information.
scala> var str = "SB is"+"SB"
str: String = SB isSB

scala>
6)如果scala配置成功,则将master节点上的/home/bms/scala-2.10.5整个目录拷贝到其他的slave节点上面。

拷贝命令是:scap -r /home/bms/scala-2-10.5 flumekafka1:/home/bms

scap -r /home/bms/scala-2-10.5 flumekafka2:/home/bms

scap -r /home/bms/scala-2-10.5 flumekafka2:/home/bms

注意:flumekafka1、flumekafka2、flumekafka3分别是我slave节点的hostname

7)按着第4)步骤同样的操作分别修改flumekafka1、flumekafka2、flumekafka3的/etc/profile配置文件。

二、Spark环境的配置

1)到spark的官网下载spark-1.3.1-bin-hadoop2.6.tgz 压缩包

2)将spark-1.3.1-bin-hadoop2.6.tgz 拷贝到master的/home/bms目录下

3)解压spark-1.3.1-bin-hadoop2.6.tgz 。解压命令是:tar -zxvf spark-1.3.1-bin-hadoop2.6.tgz 

4)配置环境变量,在master的/etc/profile文件中天加如下内容:

export SPARK_HOME=/home/bms/spark-1.3.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
5)进入master的/home/bms/spark-1.3.1-bin-hadoop2.6/confx目录,分别多slaves和spark-env.sh进行修改:

在slaves文件内添加如下内容:

flumekafka1

flumekafka2

flumekafka3

在spark-env.sh内添加如下内容:

export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80
export SCALA_HOME=/home/bms/scala-2.10.5
export SPARK_MASTER_IP=192.168.100.103
export SPARK_WORKER_MEMORY=2g
export HADOOP_CONF_DIR=/home/bms/hadoop-2.6.0/etc/hadoop
注意:HADOOP_CONF_DIR是Hadoop配置文件目录,SPARK_MASTER_IP主机IP地址,SPARK_WORKER_MEMORY是worker使用的最大内存
6)将master节点/home/bms/ spark-1.3.1-bin-hadoop2.6整个目录分别拷贝到slave节点下的相同目录下,拷贝命令是:

scap -r /home/bms/<span style="font-family: Helvetica, Tahoma, Arial, sans-serif;font-size:18px; line-height: 25.1875px; background-color: rgb(240, 240, 240);">spark-1.3.1-bin-hadoop2.6</span> flumekafka1:/home/bms
scap -r /home/bms/<span style="font-family: Helvetica, Tahoma, Arial, sans-serif;font-size:18px; line-height: 25.1875px; background-color: rgb(240, 240, 240);">spark-1.3.1-bin-hadoop2.6</span> flumekafka2:/home/bms
scap -r /home/bms/<span style="font-family: Helvetica, Tahoma, Arial, sans-serif;font-size:18px; line-height: 25.1875px; background-color: rgb(240, 240, 240);">spark-1.3.1-bin-hadoop2.6</span> flumekafka2:/home/bms
7)在master节点上启动Spark集群环境

进入/home/bms/spark-1.3.1-bin-hadoop2.6/sbin目录,然后输入./start-all.sh

注意:在启动spark之前,如果hadoop没有启动,应先启动hadoop

8)正常启动之后,master节点输入jps,应该有如下进程:

31233 ResourceManager
27201 Jps
30498 NameNode
30733 SecondaryNameNode
5399 Master
slave节点应该有如下进程:

30737 NodeManager
7219 Jps
30482 DataNode
757 Worker
9)Spark集群环境配置完毕。