Spark笔记--使用Maven编译Spark源码(windows)

1. 官网下载源码 source code，地址： http://spark.apache.org/downloads.html

2. 使用maven编译：

　　注意在编译之前，需要设置java堆大小以及永久代大小，避免mvn出现内存溢出的情况。
　　windows下设置：%MAVEN_HOME%\bin\mvn.cmd,将其中的

@REM set MAVEN_OPTS=-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8000

这行注释下方加一行

set MAVEN_OPTS= -Xmx2048m -XX:PermSize=512m -XX:MaxPermSize=1024m

之后进行编译

mvn -Pyarn -Phadoop-2.4.1 -Dhadoop.version=2.4.1 -Phive -DskipTests clean package

编译完成后，将项目导入intellij

File->import setting->打开源码文件下的pom.xml等待完成即可

生成可运行的distribution

make-distribution.sh --name custom-spark --tgz -Phadoop-2.4. -Phive -Phive-thriftserver -Pyarn

参考资料：

Apache Spark源码走读之9 -- Spark源码编译： http://www.cnblogs.com/hseagle/p/3732492.html

秒客网