hadoop伪分布式布置安装

时间:2022-08-08 04:48:51

配置伪分布Hadoop
解压安装hadoop
【不要用root权限】
$ tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/

1.配置hadoop的java环境支持, ${HADOOP_HOME}/etc/hadoop目录下
hadoop-env.sh
mapred-env.sh
yarn-env.sh
export JAVA_HOME=/opt/modules/jdk1.7.0_ 67
hadoop伪分布式布置安装

2.与hdfs相关的配置 ${HADOOP_HOME}/etc/hadoop
1)core-site.xml
=============core-site.xml===================


fs.defaultFS
hdfs://vampire01:8020

<!--hadoop在运行时产生的文件,元数据在本地的存放目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.5.0/data</value>
</property>

hadoop伪分布式布置安装

2)hdfs-site.xml

=============hdfs-site.xml============


dfs.replication
1

hadoop伪分布式布置安装

3)格式化namenode  只格式化一遍,不要重复格式化
${HADOOP_HOME}目录下:

$ bin/hdfs namenode -format

倒数有一行写了 successfully formatted才算成功.
4)启动hdfs守护进程

sbin/hadoopdaemon.shstartnamenode//namenode sbin/hadoop-daemon.sh start datanode //启动datanode
hadoop伪分布式布置安装

web访问界面
http://bigdata.ibeifeng.com:50070/

**5)HDFS文件系统常用命令
$ bin/hdfs dfs //可以查看所有的dfs相关的操作指令
$ bin/hdfs dfs -ls /
$ bin/hdfs dfs -mkdir -p /input/test
$ bin/hdfs dfs -rmdir /input/test**

$ bin/hdfs dfs -put /opt/software/jdk-7u67-linux-x64.tar.gz /input/test

3.配置YARN 任务调度 (Mapreduce) 资源管理(resourcemanager nodemanager)
${HADOOP_HOME}/etc/hadoop目录下配置yarn-site.xml
=======yarn-site.xml=====


yarn.resourcemanager.hostname
[hostname]



yarn.nodemanager.aux-services
mapreduce_shuffle

hadoop伪分布式布置安装

复制并重名模板文件
cpetc/hadoop/mapredsite.xml.templateetc/hadoop/mapredsite.xml=======mapredsite.xml===== {HADOOP_HOME}/etc/hadoop目录下配置mapred-site.xml



mapreduce.framework.name
yarn

hadoop伪分布式布置安装

4.启动hdfs yarn进程
sbin/hadoopdaemon.shstartnamenode sbin/hadoop-daemon.sh start datanode
sbin/yarndaemon.shstartresourcemanager sbin/yarn-daemon.sh start nodemanager
hadoop伪分布式布置安装
5.检查hdfs yarn启动状态,即查看守护进程

6.向yarn提交mapreducer任务
hadoop伪分布式布置安装

1)计算圆周率
example: bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar pi 5 3
2)wordcount词频统计
a.在用户主目录创建一个wordcount.txt
example: vi /home/user01/wordcount.txt
hadoop java
html java
linux hadoop
yarn hadoop

b.上传到hdfs的input目录下
$ bin/hdfs dfs -put ~/wordcoun.txt /input/

c.提交wordcount任务

example:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input /output

【报错】:再次执行wordcount会提示输出目录已存在
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://hadoop.beifeng.com:8020/output already exists
【解决办法】
删除hdfs上的输出目录或者重新指定输出目录
【常见错误】:
1:主机名配置错误或者未配置主机名;
2:配置的参数【标签对】错误,标签对参数有空格
3:xml的注释格式错误,标签对未对齐
4:namenode重复格式化
5:修改配置参数未保存,进程未重启
6:路径有问题

7.配置日志聚合
=======mapred-site.xml=========
**追加到原来配置和后面

mapreduce.jobhistory.address

[hostname]:10020


mapreduce.jobhistory.webapp.address
[hostname]:19888

hadoop伪分布式布置安装
==============yarn-site.xml=======


yarn.log-aggregation-enable
true



yarn.log-aggregation.retain-seconds
86400

hadoop伪分布式布置安装
8.停止所有进程重新启动,以便配置文件生效

查看hdfs的web界面
http://hadoop.beifeng.com:50070
*28724 NameNode
*28808 DataNode

查看yarn的web访问界面
http://hadoop.beifeng.com:8088
*28904 ResourceManager
28724 NameNode
28808 DataNode
*29152 NodeManager