1、下载源码,根据自己的环境编译,我这里下载的是spark1.3版本
本人采用sbt编译,
SPARK_HADOOP_VERSION=2.5.2 SPARK_YARN=ture sbt/sbt assembly
这句代码共有两个参数,第一个是指本机的hadoop环境的版本,第二个参数是指是否在yarn上运行,
2、编译完成后会生成make-distribution.sh文件3、然后我们需要将生成的部署包部署在集群上
这里有几个参数说明一下:
--hadoop VERSION :hadoop版本号
--with-yarn:是否支持yarn,不加参数时默认不支持
--with-hive:是否在spark SQL 中支持hive,默认不支持
还有其它一些参数,这里不一一列举了,常用的就上面几个
(1)现在我们生成支持hadoop 2.5.2、支持yarn的部署包
./make-distribution.sh --hadoop 2.5.2 --with-yarn --tgz
(2)现在我们生成支持hadoop 2.5.2、支持yarn、支持hive的部署包
./make-distribution.sh --hadoop 2.5.2 --with-yarn --with-hive --tgz
执行命令后,会生成spark-1.3.0-bin-2.5.2.tgz的部署包