1. 官网下载源码 source code,地址: http://spark.apache.org/downloads.html
2. 使用maven编译:
注意在编译之前,需要设置java堆大小以及永久代大小,避免mvn出现内存溢出的情况。
windows下设置:%MAVEN_HOME%\bin\mvn.cmd,将其中的
@REM set MAVEN_OPTS=-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8000
这行注释下方加一行
set MAVEN_OPTS= -Xmx2048m -XX:PermSize=512m -XX:MaxPermSize=1024m
之后进行编译
mvn -Pyarn -Phadoop-2.4.1 -Dhadoop.version=2.4.1 -Phive -DskipTests clean package
编译完成后,将项目导入intellij
File->import setting->打开源码文件下的pom.xml等待完成即可
生成可运行的distribution
make-distribution.sh --name custom-spark --tgz -Phadoop-2.4. -Phive -Phive-thriftserver -Pyarn
参考资料:
Apache Spark源码走读之9 -- Spark源码编译: http://www.cnblogs.com/hseagle/p/3732492.html
Spark大师之路:使用maven编译Spark:http://blog.****.net/asongoficeandfire/article/details/23223561
Spark 1.3.0源码编译及部署:http://www.68idc.cn/help/buildlang/ask/20150330305409.html
Spark源码包的编译:http://www.linuxidc.com/Linux/2015-01/111183.htm