配置伪分布Hadoop
解压安装hadoop
【不要用root权限】
$ tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/
1.配置hadoop的java环境支持, ${HADOOP_HOME}/etc/hadoop目录下
hadoop-env.sh
mapred-env.sh
yarn-env.sh
export JAVA_HOME=/opt/modules/jdk1.7.0_ 67
2.与hdfs相关的配置 ${HADOOP_HOME}/etc/hadoop
1)core-site.xml
=============core-site.xml===================
fs.defaultFS
hdfs://vampire01:8020
<!--hadoop在运行时产生的文件,元数据在本地的存放目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.5.0/data</value>
</property>
2)hdfs-site.xml
=============hdfs-site.xml============
dfs.replication
1
3)格式化namenode 只格式化一遍,不要重复格式化
${HADOOP_HOME}目录下:
$ bin/hdfs namenode -format
倒数有一行写了 successfully formatted才算成功.
4)启动hdfs守护进程
web访问界面
http://bigdata.ibeifeng.com:50070/
**5)HDFS文件系统常用命令
$ bin/hdfs dfs //可以查看所有的dfs相关的操作指令
$ bin/hdfs dfs -ls /
$ bin/hdfs dfs -mkdir -p /input/test
$ bin/hdfs dfs -rmdir /input/test**
$ bin/hdfs dfs -put /opt/software/jdk-7u67-linux-x64.tar.gz /input/test
3.配置YARN 任务调度 (Mapreduce) 资源管理(resourcemanager nodemanager)
${HADOOP_HOME}/etc/hadoop目录下配置yarn-site.xml
=======yarn-site.xml=====
yarn.resourcemanager.hostname
[hostname]
yarn.nodemanager.aux-services
mapreduce_shuffle
复制并重名模板文件
mapreduce.framework.name
yarn
4.启动hdfs yarn进程
5.检查hdfs yarn启动状态,即查看守护进程
6.向yarn提交mapreducer任务
1)计算圆周率
example: bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar pi 5 3
2)wordcount词频统计
a.在用户主目录创建一个wordcount.txt
example: vi /home/user01/wordcount.txt
hadoop java
html java
linux hadoop
yarn hadoop
b.上传到hdfs的input目录下
$ bin/hdfs dfs -put ~/wordcoun.txt /input/
c.提交wordcount任务
example:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input /output
【报错】:再次执行wordcount会提示输出目录已存在
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://hadoop.beifeng.com:8020/output already exists
【解决办法】
删除hdfs上的输出目录或者重新指定输出目录
【常见错误】:
1:主机名配置错误或者未配置主机名;
2:配置的参数【标签对】错误,标签对参数有空格
3:xml的注释格式错误,标签对未对齐
4:namenode重复格式化
5:修改配置参数未保存,进程未重启
6:路径有问题
7.配置日志聚合
=======mapred-site.xml=========
**追加到原来配置和后面
mapreduce.jobhistory.address
[hostname]:10020
mapreduce.jobhistory.webapp.address
[hostname]:19888
==============yarn-site.xml=======
yarn.log-aggregation-enable
true
yarn.log-aggregation.retain-seconds
86400
8.停止所有进程重新启动,以便配置文件生效
查看hdfs的web界面
http://hadoop.beifeng.com:50070
*28724 NameNode
*28808 DataNode
查看yarn的web访问界面
http://hadoop.beifeng.com:8088
*28904 ResourceManager
28724 NameNode
28808 DataNode
*29152 NodeManager