Hadoop4 利用VMware搭建自己的hadoop集群

时间：2023-01-14 17:05:38

前言:

前段时间自己学习如何部署伪分布式模式的hadoop环境，之前由于工作比较忙，学习的进度停滞了一段时间，所以今天抽出时间把最近学习的成果和大家分享一下。

本文要介绍的是如何利用VMware搭建自己的hadoop的集群。如果大家想了解伪分布式的大家以及eclipse中的hadoop编程，可以参考我之前的三篇文章。

　　1.在Linux环境中伪分布式部署hadoop(SSH免登陆)，运行WordCount实例成功。 http://www.cnblogs.com/PurpleDream/p/4009070.html

2.自己打包hadoop在eclipse中的插件。 http://www.cnblogs.com/PurpleDream/p/4014751.html

3.在eclipse中访问hadoop运行WordCount成功。 http://www.cnblogs.com/PurpleDream/p/4021191.html

===============================================================长长的分割线====================================================================

正文:

　　在之前的hadoop文章中，我主要是介绍了自己初次学习hadoop的过程中是如何将hadoop伪分布式模式部署到linux环境中的，如何自己编译一个hadoop的eclipse插件，以及如何在eclipse中搭建hadoop编程环境。如果大家有需要的话，可以点击我在前言中列出的前前三篇文章的链接。

闲话少说，言归正传，本次的目的是利用VMware搭建一个属于自己的hadoop集群。本次我们选择的是VMware10，具体的安装步骤大家可以到网上搜索，资源很多。

如果大家再安装过程中，遇到了我没有提到的错误，可以先参考文章底部列出的三个问题，看看解决方案是不是在其中，如果不在的话，再自行上网搜索。

第一步，确定目标:

master 192.168.224.100 CentOS

slave1 192.168.224.201 CentOS

slave2 192.168.224.202 CentOS

其中master为nameNode和jobTracker节点，slave1和slave2为dataNode和taskTracker节点。

第二步，配置虚拟网络，在VMware工具栏中点击“编辑”，然后选择“虚拟网络编辑器”，在弹出框中设置选项；然后点击“NAT设置”，也按照图片设置，详细参照如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

Hadoop4 利用VMware搭建自己的hadoop集群

第三步，确认VMware服务都已经启动，这个很重要，不然对你后边的操作很有影响的，如下图：

Hadoop4 利用VMware搭建自己的hadoop集群

第四步，在VMware中建立一个CentOS6.5虚拟机，详情可以参考我的另一篇文章:http://www.cnblogs.com/PurpleDream/p/4263465.html

第五步，经过第四步我们的第一个master虚拟机已经建立好了，下面针对这台虚拟机，进行网络、主机等配置，详细步骤如下:

(1).关掉SELINUX：vi /etc/selinux/config ，设置SELINUX=disabled，保存退出，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

(2).关闭防火墙：/sbin/service iptables stop;chkconfig --level 35 iptables off ;执行完毕后，调用 service iptables status，查看防火墙的状态，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

(3).修改IP地址为静态地址：vi /etc/sysconfig/network-scripts/ifcfg-eth0，将其内容改为如下图所示，注意HWADDR那一行，你所创建的虚拟机的值很可能与之不同，保持原值，不要修改它。

Hadoop4 利用VMware搭建自己的hadoop集群

(4).修改主机名称： vi /etc/sysconfig/network，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

(5).修改hosts映射：vi /etc/hosts，这里我们也将slave1和slave2的主机ip映射关系添加上，方便后边使用，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

(6).执行service network restart，重新启动网络，这一步是必须的，请注意。

第七步，安装putty工具，可以在百度上直接搜索，下载解压到自己的目录即可，我们会用到目录中的pscp.exe。

第八步，安装JDK，详细步骤如下:

(1).我从网上下载的是jdk-6u45-linux-i586.bin，放到了我的如下目录是D:\SettingUp\ITSettingUp\Java\JDK\JDK1.6(linux32),注意此目录大家可以根据自己的情况自行选择，这里我把自己的目录粘出来，是为了后边方便说明pscp的上传。

(2).打开cmd，定位到putty的解压目录，调用如下命令，如果提示输入密码，就输入虚拟机中root帐户的密码。对于下边的命令，我们使用的是pscp命令，两个参数:第一个参数是本地的jdk路径，后边的参数是我们的虚拟机路径，这里我提前在虚拟机上建立了两个父子文件夹:/myself_settings/jdk1.6

pscp D:\SettingUp\ITSettingUp\Java\JDK\JDK1.6(linux32)\jdk-6u45-linux-i586.bin root@192.168.224.100:/myself_settings/jdk1.6

(3).进入虚拟机jdk的所在目录/myself_settings/jdk1.6，执行命令： ./jdk-6u45-linux-i586.bin，等待安装完成。

(4).修改环境变量：vi ~/.bash_profile，在最后添加，如下图所示:

Hadoop4 利用VMware搭建自己的hadoop集群

(5).输入命令 source ~/.bash_profile 使配置生效，之后可以执行 java -version 判断jdk是否已经配置成功

第九步，安装hadoop，详细步骤如下:

(1).下载hadoop，我从网上下载的是hadoop-1.0.1.tar.gz。放在了我的本机：D:\SettingUp\ITSettingUp\Hadoop\hadoop-1.0

(2).打开cmd，定位到putty的解压目录，调用如下命令，如果提示输入密码，就输入虚拟机中root帐户的密码。

pscp D:\SettingUp\ITSettingUp\Hadoop\hadoop-1.0\hadoop-1.0.1.tar.gz root@192.168.224.100:/myself_settings/hadoop1.0

(3).进入虚拟机hadoop所在的目录/myself_settings/hadoop1.0，调用命令: tar -xzvf hadoop-1.0.1.tar.gz 将文件解压缩。

(4).进入(3)中解压缩后的目录后，进入到conf文件夹中进行配置，使用命令: vi hadoop-env.sh ,将JAVA_HOME一行的注释去掉，并改为如下设置:

Hadoop4 利用VMware搭建自己的hadoop集群

(5).添加环境变量 vi ~/.bash_profile ，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

(6).打开conf文件: vi core-site.xml，进行编辑，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

(7).打开conf文件: vi hdfs-site.xml，进行编辑，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

(8).打开conf文件: vi mapred-site.xml，进行编辑，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

(9).打开conf文件: vi masters，进行编辑，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

(10).打开conf文件: vi slaves，进行编辑，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

第十步，经过上述步骤，第一个虚拟机已经配置完毕了，下边我们要克隆两个虚拟机出来，作为slave1和slave2，详细步骤如下:

(1).在VMware左侧的虚拟机列表中选中第一个虚拟机，右键选择“管理”，在“管理”的面板中选择“克隆”，依次选择“下一步 ===》虚拟机中的当前状态，下一步 ===》创建完整克隆，下一步 ===》设置虚拟机名称和安装目录 ===》点击完成”，然后分别在这两个虚拟机继续做如下操作。

(2).执行：rm -f /etc/udev/rules.d/70-persistent-net.rules

(3).执行 reboot 重启虚拟机

(4).执行 vi /etc/sysconfig/networking/devices/ifcfg-eth0 将其中的 HWADDR修改为新虚拟机的网卡地址，具体查看虚拟机网卡地址的方式为: 选中虚拟机，邮件选择“设置”，在弹出的面板中按照下图所示进行设置，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

(5).同样将(4)文件中将IPADDR改为192.168.224.201(对于slave1)或192.168.224.202(对于slave2)。

(6).修改slave1和slave2的/etc/sysconfig/network文件，将主机名改为slave1或者slave2

(7).两台虚拟机执行 service network restart 重启网络

第十一步，经过上述步骤，三台虚拟机已经基本配置完毕，但是还有一个重要的步骤，那就是ssh免登陆的配置，这块我当时出了问题，所以这里再详细的说明一下:

备注:由于我第一次搭建的时候这里出了问题，所以此处当时没有来得及做记录，现在为了演示，我重新搭建了两个虚拟机，分别是TestOne和TestTwo，我这里要做的就是从TestOne免登陆到TestTwo。大家以此类推，与我们这个文章中要做的master免登陆到slave1和slave2是一样的。

(1).首先在TestOne虚拟机中，通过 cd ~/.ssh 进入~/.ssh目录，会看到有一个known_hosts文件，

(2).在~/.ssh文件夹中，输入 ssh-keygen -t dsa ，然后会让你输入密钥存储文件的名称，我输入的是id_dsa。前边这两部可以参考下边的图片，注意图片中用红色矩形框圈中的部分:

Hadoop4 利用VMware搭建自己的hadoop集群

(3).在~/.ssh文件夹中输入 cat id_dsa.pub >> authorized_keys，如下图所示:

Hadoop4 利用VMware搭建自己的hadoop集群

(4).在~/.ssh文件夹中，将刚才生成的密钥拷贝到TestTwo机器上，输入命令: scp authorized_keys TestTwo:~/.ssh ，过程中需要输入TestTwo的密码，详细参考下图，注意图中用红色矩形框圈中的部分:

Hadoop4 利用VMware搭建自己的hadoop集群

(5).经过上述4步，输入 ssh TestTwo，应该不需要再输入TestTwo的登录密码，就可以从TestOne直接登录到TestTwo了。

第十二步，至此，虚拟机的配置全部完毕，我们依次执行hadoop namenode -format 、 hadoop datanode -format ，然后在hadoop的安装目录下，进入bin目录，执行如下命令： ./start-all.sh . 然后可以在宿主机中打开浏览器，查看 192.168.224.100:50070 的内容，如果正常显示，就说明启动正常了。注意，这里也可以分别在master和slaves输入jps命令验证是否启动成功，如下图:

Hadoop4 利用VMware搭建自己的hadoop集群

Hadoop4 利用VMware搭建自己的hadoop集群

经过上边的十二步，我相信属于你自己的hadoop集群已经大家成功了，后边你可以参考我文章开头列出的文章，在eclipse中添加自己的DFS Location，指向我们的集群。在上述这个过程中，你有可能遇到一些问题，可以参考下边我列出的文章:

1.在eclipse中访问hadoop集群时出现 org.apache.hadoop.security.AccessControlException: Permission denied: user=DrWho, access=WRITE 这个错误，参考如下:

解决方案:http://www.cnblogs.com/acmy/archive/2011/10/28/2227901.html

2.启动hadoop时有这样的提示 Warning: $HADOOP_HOME is deprecated. 这个不会影响使用，如果想解决的话，参考如下:

解决方案:http://chenzhou123520.iteye.com/blog/1826002

3. 如果在设置完网络，调用service network restart时，出现Device eth0 does not seem to be present这个问题，参考如下：

解决方案:重新打开vi /etc/sysconfig/network-scripts/ifcfg-eth0，将其中的DEVICE的值改为eth1或者别的，然后重启网络，应该就不会报错了。

Hadoop4 利用VMware搭建自己的hadoop集群的更多相关文章

ZooKeeper1 利用虚拟机搭建自己的ZooKeeper集群
前言: 前段时间自己参考网上的文章,梳理了一下基于分布式环境部署的业务系统在解决数据一致性问题上的方案,其中有一个方案是使用ZooKeeper,加之在大数据处理中,ZooKeeper确实起 ...
Kafka1 利用虚拟机搭建自己的Kafka集群
前言: 上周末自己学习了一下Kafka,参考网上的文章,学习过程中还是比较顺利的,遇到的一些问题最终也都解决了,现在将学习的过程记录与此,供以后自己查阅,如果能帮助到其他人,自然是更好的. ...
基于Docker快速搭建多节点Hadoop集群--已验证
Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中.这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤.作者在发现目前的Hadoop ...
搭建简单的hadoop集群（译文)
本文翻译翻译自http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/ClusterSetup.html 具体的实 ...
从VMware虚拟机安装到hadoop集群环境配置详细说明（第一期）
http://blog.csdn.net/whaoxysh/article/details/17755555 虚拟机安装我安装的虚拟机版本是VMware Workstation 8.04,自己电脑上 ...
在 Linux 服务器上搭建和配置 Hadoop 集群
实验条件:3台centos服务器,jdk版本1.8.0,Hadoop 版本2.8.0 注:hadoop安装和搭建过程中都是在用户lb的home目录下,master的主机名为host98,slave的主 ...
搭建ubuntu版hadoop集群
用到的工具:VMware.hadoop-2.7.2.tar.jdk-8u65-linux-x64.tar.ubuntu-16.04-desktop-amd64.iso 1. 在VMware上安装ub ...
大数据系列（1）——Hadoop集群坏境搭建配置
前言关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方 ...
沉淀，再出发——手把手教你使用VirtualBox搭建含有三个虚拟节点的Hadoop集群
手把手教你使用VirtualBox搭建含有三个虚拟节点的Hadoop集群一.准备,再出发在项目启动之前,让我们看一下前面所做的工作.首先我们掌握了一些Linux的基本命令和重要的文件,其次我们学会 ...

随机推荐

jquery&period;uploadify上传文件配置详解(asp&period;net mvc)
页面源码: <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" c ...
cocos2dx 在Xcode里面 resource 里面文件夹的搜索
以前一直在pc上写cocos2dx 第一次到Xcode里面写发现在resource文件夹里面添加了新的目录后竟然没有用这里记录下在项目里面和classes目录同级的标签下有个Resourc ...
谦先生的程序员日志之我的hadoop大数据生涯一
从一个初级程序员到高级程序员的经历你好!我是谦先生,我是茫茫程序猿中的一猿,平凡又执着. 刚入行的时候说实话,啥都不懂,就懂点皮毛的java,各种被虐狗的感觉.又写js又写css又写后台...慢慢被 ...
利用FileReader实现上传图片前本地预览
引子平时做图片上传预览时如果没有特殊的要求就直接先把图片传到后台去,成功之后拿到URL再渲染到页面上,这样做在图片比较小的时候没什么问题,大一点的话就会比较慢才能看到预览了,而且还产生了垃圾文件,所 ...
vue学习之响应式原理的demo实现
Vue.js 核心: 1.响应式的数据绑定系统 2.组件系统. 访问器属性访问器属性是对象中的一种特殊属性,它不能直接在对象中设置,而必须通过 defineProperty() 方法单独定义. va ...
React项目新手指南
对于程序员而言:驼峰和下划线之间是一场宗派战争:大括号是否换行会成为一种党派:逗号写在行尾还是行首的人来自不同星球…… 然而,无规矩不成方圆,任何一个团队,要想有高质量的产出,第一步必须要对一些基本的 ...
【剑指offer】字符串的排列
一.题目: 输入一个字符串,按字典序打印出该字符串中字符的所有排列.例如输入字符串abc,则打印出由字符a,b,c所能排列出来的所有字符串abc,acb,bac,bca,cab和cba. 二.思路: ...
Python全栈-异常处理
一.异常 1.异常的定义异常是错误发生的信号,程序一旦出错就会抛出错误信息,如果不及时处理就会程序就会随之停止运行异常有三部分组成: 1)异常类型 2)异常追踪 3)异常的值 2.异常的分类 1) ...
jdk源码剖析三：锁Synchronized
一.Synchronized作用 (1)确保线程互斥的访问同步代码 (2)保证共享变量的修改能够及时可见 (3)有效解决重排序问题.(Synchronized同步中的代码JVM不会轻易优化重排序) 二 ...
tomcat监听activemq jms配置
当从webservice接收到信息的时候,消息生产者producer立刻把收到的消息放入到jms里面,消费者cusomer这时要设置一个监听,当生产者发送消息时,只要消息被发出来,消费者就会接收到消息 ...

相关文章

