hadoop伪分布式布置安装

配置伪分布Hadoop
解压安装hadoop
【不要用root权限】
$ tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/

1.配置hadoop的java环境支持， ${HADOOP_HOME}/etc/hadoop目录下
hadoop-env.sh
mapred-env.sh
yarn-env.sh
export JAVA_HOME=/opt/modules/jdk1.7.0_ 67
hadoop伪分布式布置安装

2.与hdfs相关的配置 ${HADOOP_HOME}/etc/hadoop
1）core-site.xml
=============core-site.xml===================

fs.defaultFS
hdfs://vampire01:8020

<!--hadoop在运行时产生的文件，元数据在本地的存放目录 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-2.5.0/data</value>
</property>

2)hdfs-site.xml

=============hdfs-site.xml============

dfs.replication
1

3）格式化namenode  只格式化一遍，不要重复格式化
${HADOOP_HOME}目录下：

$ bin/hdfs namenode -format

倒数有一行写了 successfully formatted才算成功.
4）启动hdfs守护进程

sbin/hadoop−daemon.shstartnamenode//启动namenode进程 sbin/hadoop-daemon.sh start datanode //启动datanode
hadoop伪分布式布置安装

web访问界面
http://bigdata.ibeifeng.com:50070/

**5)HDFS文件系统常用命令
$ bin/hdfs dfs   //可以查看所有的dfs相关的操作指令
$ bin/hdfs dfs -ls /  
$ bin/hdfs dfs -mkdir -p /input/test
$ bin/hdfs dfs  -rmdir /input/test**

$ bin/hdfs dfs -put /opt/software/jdk-7u67-linux-x64.tar.gz /input/test

3.配置YARN 任务调度（Mapreduce）资源管理（resourcemanager nodemanager）
${HADOOP_HOME}/etc/hadoop目录下配置yarn-site.xml
=======yarn-site.xml=====

yarn.resourcemanager.hostname
[hostname]

yarn.nodemanager.aux-services
mapreduce_shuffle

复制并重名模板文件
cpetc/hadoop/mapred−site.xml.templateetc/hadoop/mapred−site.xml=======mapred−site.xml===== {HADOOP_HOME}/etc/hadoop目录下配置mapred-site.xml

mapreduce.framework.name
yarn

4.启动hdfs yarn进程
sbin/hadoop−daemon.shstartnamenode sbin/hadoop-daemon.sh start datanode
sbin/yarn−daemon.shstartresourcemanager sbin/yarn-daemon.sh start nodemanager
hadoop伪分布式布置安装
5.检查hdfs yarn启动状态，即查看守护进程

6.向yarn提交mapreducer任务
hadoop伪分布式布置安装

1)计算圆周率
example: bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar  pi 5 3
2）wordcount词频统计
a.在用户主目录创建一个wordcount.txt
example: vi /home/user01/wordcount.txt
hadoop java
html java
linux hadoop
yarn hadoop

b.上传到hdfs的input目录下
$ bin/hdfs dfs -put ~/wordcoun.txt /input/

c.提交wordcount任务

example:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input /output

【报错】：再次执行wordcount会提示输出目录已存在
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://hadoop.beifeng.com:8020/output already exists
【解决办法】
删除hdfs上的输出目录或者重新指定输出目录
【常见错误】：
1：主机名配置错误或者未配置主机名；
2：配置的参数【标签对】错误，标签对参数有空格
3：xml的注释格式错误，标签对未对齐
4：namenode重复格式化
5：修改配置参数未保存，进程未重启
6：路径有问题

7.配置日志聚合
=======mapred-site.xml=========
**追加到原来配置和后面

mapreduce.jobhistory.address

[hostname]:10020

mapreduce.jobhistory.webapp.address
[hostname]:19888

hadoop伪分布式布置安装
==============yarn-site.xml=======

yarn.log-aggregation-enable
true

yarn.log-aggregation.retain-seconds
86400

8.停止所有进程重新启动，以便配置文件生效

查看hdfs的web界面
http://hadoop.beifeng.com:50070
*28724 NameNode
*28808 DataNode

查看yarn的web访问界面
http://hadoop.beifeng.com:8088
*28904 ResourceManager
28724 NameNode
28808 DataNode
*29152 NodeManager

秒客网

hadoop伪分布式布置安装

相关文章