配置环境:虚拟机安装伪分布式hadoop环境
虚拟机环境:centos 6.6
eclipse环境:win7
hadoop版本:2.2.0
eclipse 插件:hadoop2x-eclipse-plugin
需要注意的问题:hadoop 2X与hadoop1X相比配置上有了比较大的改变,如果之前搭过1X环境的要注意这些改变,要不然很容易因为惯性思维导致配置错误。这其中最大的差别就是多了yarn进行资源管理
步骤一、linux 虚拟机上安装hadoop2.2.0并配置各个site文件,网上很多教程,不赘述
步骤二、将自己打包或者下载的hadoop和eclipse直接的插件导入eclipse的 plugins目录(复制进去即可),本文使用直接下载的插件hadoop-eclipse-plugin-2.2.0.jar,然后启动eclipse。
步骤三、这时候会发现eclipse中多了mapreduce的选项,在window-》show view-》others 中配置mapreduce,这里需要注意端口问题,特别是用过1X的用户,这里的端口配置应该与hadoop中配置对应关系为:Mapreduce Master中Host为resourcemanager机器ip,Port为resourcemanager接受任务的端口号,即yarn-site.xml文件中yarn.resourcemanager.scheduler.address配置项中端口号。DFS Master中的Host为namenode机器ip,Port为core-site.xml文件中fs.defaultFS配置项中端口号。笔者因为这个端口配置问题折腾了半天