Spark 学习(三) maven 编译spark 源码

时间:2024-08-06 15:05:38

spark 源码编译

scala 版本2.11.4

os:ubuntu 14.04 64位

memery 3G

spark :1.1.0

下载源码后解压

1 准备环境,安装jdk和scala,具体参考:http://www.cnblogs.com/chenfool/p/3858930.html

2 编译

其实spark 官网上说得挺详细的,但是使用官网介绍的方法,在下载依赖包时,被天朝墙了,导致总是下载不成功。幸好还有一个maven的编译方法,下面网址是spark官网介绍如何使用maven编译spark源码的:https://spark.apache.org/docs/latest/building-with-maven.html。

安装maven这么简单的事情就不介绍了

配置一个maven的环境变量

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

编译命令:

mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4. -DskipTests clean package

开始时,maven会去下载很多的依赖jar包,中间时间比较久,而且由于国外网站不稳定,下载可能还会失败,如果是下载jar包失败,我们只要再执行一次编译命令,它会再次去下载的,放心,已经下载过的不会重复下载。