Windows下搭建Spark+Hadoop开发环境需要一些工具支持。
只需要确保您的电脑已装好Java环境,那么就可以开始了。
一. 准备工作
1. 下载Hadoop2.7.1版本(写Spark和Hadoop主要是用到了Yarn,因此Hadoop必须安装)
下载地址:http://apache.fayea.com/hadoop/common/hadoop-2.7.1/
下载其中的hadoop-2.7.1.tar.gz并解压到一个固定目录作为Hadoop安装目录。
2. 下载支持插件
下载地址:https://github.com/ShixiangWan/winutils,其中有很多个Hadoop版本,这里我们以其中的Hadoop2.7.1稳定版为例。
下载后将Hadoop2.7.1的bin中的文件覆盖拷贝至上述的安装目录的bin下。
3. 覆盖hadoop.dll
将插件bin目录下的hadoop.dll复制到C:\Window\System32下。
二. 环境变量配置
1. 增加环境变量HADOOP_HOME,指向Hadoop安装根目录;
2. 在Path变量中添加%HADOOP_HOME%\bin;
3. 重启Eclipse或Intellij,直接运行Spark或Hadoop的Maven项目即可。