将Hadoop 2.6.0源码导入到Eclipse

时间:2023-01-22 12:09:06

我的环境:

Windows 7 64bit
NTFS格式文件系统
Administrator用户
Eclipse(Luna Service Release 2 (4.4.2))
JDK 1.7(Oracle官网下载)最好不要用1.8,因为导入源码后还想编译的话会出现问题。
hadoop-src-2.6.0.tar.gz(在官网下载的源码:http://www.apache.org/dyn/closer.cgi/hadoop/common/)



1. 安装Apache Maven。

  • 一般是直接到官网下载最新的binaries;
  • 解压到你所希望的目录,比如C:\Program Files\Apache Software Foundation\
  • 将命令所在路径加入到PATH环境变量中。解压后得到一个目录,我下载的是3.3.1版,得到的目录是apache-maven-3.3.1;maven的可执行命令mvn的目录是C:\Program Files\Apache Software Foundation\apache-maven-3.3.1\bin,需要确保这个路径加入到PATH环境变量中。
  • 验证安装。安装好后,打开一个cmd窗口,执行mvn -version,会输出一些信息(在磁盘根目录下执行这个命令可能会输出java.exe的用法信息,出现这个现象的原因是,mvn命令中启动java.exe时传递的一个参数是路径但最后一个字符不能是"\",而根目录通过%CD%变量给出的字符串的最后一个字符恰恰是"\",所以会出现问题。换到一个非磁盘根目录下执行命令,会正常显示,一般包括Maven的版本和HOME路径,Java的版本和HOME路径,默认Locale,OS的信息。不能正常显示也不会影响后面的过程,只要表明能够找到mvn命令即可)。
  • 设置MAVEN_OPTS。能够为了避免编译时java虚拟机的内存不够,需要设置一个环境变量MAVEN_OPTS,值为-Xms256m -Xmx512m。如果在windows的命令提示符下,使用set MAVEN_OPTS=-Xms256m -Xmx512m(注意没有引号)。


2. (想用官方源的可以跳过这步)可以修改maven的源配置,可以修改成国内的源,下载速度可能快些。请参考http://www.cnblogs.com/errorx/p/3779578.html这篇博文。对于我的maven安装来讲,是要修改C:\Program Files\Apache Software Foundation\apache-maven-3.3.1\conf\目录下的settings.xml文件。


3. 下载protocol buffers的编译器程序,即protoc.exe,放到通过PATH环境变量可以找到的目录(或者将protoc.exe所在目录加入到PATH环境变量中)。这个protocol buffers是google的项目,但相关源码和下载已经转到github.com上了,方便了下载。请下载2.5.0版本的二进制程序。https://github.com/google/protobuf/releases。如果下载有困难可以从下面链接下载:http://vdisk.weibo.com/s/BICjq6gk87iUM(windows的二进制程序),http://vdisk.weibo.com/s/BICjq6gk87iV5(源码,linux下编译)。安装完毕后执行protoc --version检查一下。


4. 解压源码某个目录下面(最好直接放在根目录下)。


5. 进入源码根目录下的hadoop-maven-plugins目录,执行 mvn install。注意执行mvn命令的过程中,可能下载很多maven所需文件,而且因为网速问题,可以经常出错。这时的解决办法是不断重新执行相关mvn命令(包括下面那个步骤也是如此),直到不是因为下载东西导致出错(此时才需要真正查看错误信息)。成功后会显示BUILD SUCCESS。


6. 进入hadoop-maven-plugins目录的上层目录(即源代码根目录),执行

mvn eclipse:eclipse -DskipTests
成功后会显示BUILD SUCCESS。


7. 打开Eclipse,最后专门建一个workspace(即建一个专门目录),执行菜单命令:File->Import,弹出对话框后,在General下面选择Existing Projects into Workspace,然后定位到源代码根目录,点击“Finish”按钮导入。导入后会有一些错误,主要是三个:

 

序号 Description Resource Path Location Type
(1) AvroRecord cannot be resolved to a type TestAvroSerialization.java /hadoop-common/src/test/java/org/apache/hadoop/io/serializer/avro line 32 Java Problem
(2) EchoRequestProto cannot be resolved RPCCallBenchmark.java /hadoop-common/src/test/java/org/apache/hadoop/ipc line 397 Java Problem
(3) Project 'hadoop-streaming' is missing required source folder: '<你的源代码根目录>/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/conf' hadoop-streaming   Build path Build Path Problem

解决第一个错误:

  • 需要下载avro-tools-x.x.x.jar文件,可以下载当前最新的,地址http://mirrors.hust.edu.cn/apache/avro/avro-1.7.7/java/avro-tools-1.7.7.jar(华中科技大学的镜像)。版本更新之后地址可能变化,可以到avro.apache.org上面找最新地址或者最新版本。
  • 进入源码根目录下的“hadoop-common-project\hadoop-common\src\test\avro”执行命令,java -jar <所在目录>\avro-tools-1.7.7.jar compile schema avroRecord.avsc ..\java 。其中avsc文件是avro的模式文件,上面命令是要通过模式文件生成相应的.java文件。
  • 右键单击eclipse中的hadoop-common项目,然后refresh。【如果refresh不成功,直接refresh出错源码文件所在的包】

解决第二个错误,也是要生成一些.java文件:

  • 进入源码根目录下的“hadoop-common-project\hadoop-common\src\test\proto”,执行protoc --java_out=..\java *.proto 命令(protoc就是在上面第三步下载的protoc程序)。
  • 右键单击eclipse中的hadoop-common,然后refresh。【如果refresh不成功,直接refresh出错源码文件所在的包】

解决第三个错误:

  • 在eclipse中,右键单击hadoop-streaming项目,选择“Properties”,左侧栏选择Java Build Path,然后右边选择Source标签页,注意出错的那个路径(先不要删除)。
  • 点击“Link Source按钮”,选择被链接的目录为“<你的源代码根目录>/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/conf”,链接名可以使用显示的(也可以随便取);
  • inclusion patterns中添加capacity-scheduler.xml,exclusion patters中添加**/*.java,这个信息与出错的那项一样;完毕后将出错的项删除。刷新hadoop-streaming项目。

     【补充:好像直接将出错的Source标签页中的项删去,也可以】


至此可以成功导入Hadoop 2.6.0 的源代码到eclipse中,结果如下图所示:

将Hadoop 2.6.0源码导入到Eclipse


附:

发现一个不常见的问题。一份hadoop-2.6.0的源码经过上面过程导入到eclipse后(在windows上),然后再把这份源码上传到Linux服务器(RHEL 64bit)进行编译,结果出现编译通不过的情况,而使用一份未经此处理的代码,编译是可以顺利通过的。也许顺序到颠倒过来才好——先在Linux上编译,然后在下载到windows环境下导入eclipse。或者干脆直接同步具体的源代码文件,而不管什么eclipse的工程文件。

换了JDK版本之后,可能需要重新走一下这个流程。


上面过程对于hadoop-2.7.0的源码也适用。