问题导读:
1.Cloudera Manager5如何使用cloudera-manager-installer.bin安装?
2.Cloudera Manager5安装被中断该如何继续安装?还是重新安装?
3.安装过程cloudera server与agent不能通信该如何解决?
4.Cloudera Manager5安装是否有要求?
5.安装服务的过程中,遇到错误,该如何解决?
Cloudera Manager5安装遇到很多的问题,本来Cloudera Manager是为了简化部署,但是由于条件有限,安装Cloudera Manager如果不注意,会成为一部血泪史。为了避免、多次、重复安装不成功,所以你需要具备以下条件。
1.较好的网速
至少2m,否则现在慢的要死
2.网络要稳定
一旦网络中断,可能你花费了半天或则一天的时间,就有可能会浪费,然后重装。
3.内存要足够大
我的电脑是8G:
使用虚拟机安装
cloudera server:4G
cloudera agent:分别为2G
电脑最后很卡,而且内存爆满。
所以官网给出的10G不是没有道理的。
安装系统为ubuntu12.04
1. 网络配置(所有节点)
vi /etc/sysconfig/network
修改hostname:
NETWORKING=yesHOSTNAME=n1
通过 service network restart
重启网络服务生效。
vi /etc/hosts
,修改ip与主机名的对应关系
192.168.1.106 n1
192.168.1.107 n2
192.168.1.108 n3
注意: 这里需要将每台机器的ip及主机名对应关系都写进去,本机的也要写进去,否则启动Agent的时候会提示hostname解析错误。
关闭防火墙和SELinux
注意: 需要在所有的节点上执行,因为涉及到的端口太多了,临时关闭防火墙是为了安装起来更方便,安装完毕后可以根据需要设置防火墙策略,保证集群安全。
关闭SELINUX(实际安装过程中发现没有关闭也是可以的,不知道会不会有问题,还需进一步进行验证):
setenforce 0 (临时生效)
修改 /etc/selinux/config 下的 SELINUX=disabled (重启后永久生效)
准备工作
规划三台:
cloudera scm server 内存分配4G
cloudera scm agent 内存分配2G
cloudera scm agent 内存分配2G
同时三台都需要配置hostname及hosts如下
(这里一定要配置正确否则,会面会出通信问题)
#127.0.1.1 ubuntu
172.16.77.60 CDH.aboutyun.com CDH
172.16.77.61 CDH1.aboutyun.com CDH1
172.16.77.62 CDG2.aboutyun.com CDH2
复制代码
不知道如何配置,参考ubuntu修改hostname
注意:本来想写一个完美的文档,上面有一个小失误,CDH2可以写成CDG2,这里不要照抄,而是失误,不过这个不影响,只要所有的hosts,都配置成这样,通信是没有问题的。
同时三台都安装ssh
sudo apt-get install ssh
复制代码
在每台机器上执行下面操作:
sudo mv /usr/bin/host /usr/bin/host.bak
复制代码
echo 0 > /proc/sys/vm/swappiness
复制代码
官网介绍及cloudera-manager-installer.bin下载及安装视频
下载和运行cloudera-manager-installer.bin
1.下载cloudera-manager-installer.bin
附件下载:
cloudera-manager-installer.rar (253.69 KB, 下载次数: 228)
官网下载
如果使用windows,可以使用scp,复制到Linux,如果不会使用scp,可以参考
新手指导:使用 WinSCP(下载) 上文件到 Linux图文教程
ssh、scp不能远程登录与复制都失败解决方案
2.改变 cloudera-manager-installer.bin 的执行权限
chmod u+x cloudera-manager-installer.bin
复制代码
3.执行 cloudera-manager-installer.bin
sudo ./cloudera-manager-installer.bin
复制代码
会弹出框,你只需要按下next和yes就可以了。
详细步骤如下:
弹出对话框
单击NEXT
单击NEXT
按下Yes
单击NEXT
按下Yes
最后是等待。
最后安装
Your browser should now open to http://localhost:7180/. Log in to Cloudera Manager with the username and password set to 'admin' to continue installation.
复制代码
在安装cloudera-server的pc机下,输入下面网址即可访问
http://localhost:7180
复制代码
上面点击close,会自动访问。关闭浏览器后,会看到下图
远程访问的输入ip即可下面形式
http://ip:7180
复制代码
例如:
http://172.16.77.60:7180
复制代码
4.登录
输入用户名和密码
用户名:admin
密码: admin
安装完毕,单击ok,系统会默认让你访问localhost:7180。我们可以通过ip访问
如下图所示:http://172.16.77.60:7180
z这样cloudera-manager-server就已经安装成功了。
我们接着进入下面:
登录成功,进入下面界面
选择 Cloudera Manager 版本 和指定主机
我们选择Clouder Express。
当然你选择Clouder Enterprise试用版也可以。单击继续
为CDH集群安装指定主机
都通信完好,我们单击继续
选择存储库
都是采用的默认设置
配置 Java 加密
采用的是默认形式
提供ssh登录凭据
这里选用的是root,并且接受相同的密码,密码都为123
注释:
指定主机的 SSH 登录方式
一种通过root用户,密码需要一致,刚开始安装建议使用root。
也可以使用非root用户,但是需要保证sudo无密码访问
实现方法如下
给aboutyun用户设置无密码sudo权限:
chmod u+w /etc/sudoers
aboutyun ALL=(root)NOPASSWD:ALL
chmod u-w /etc/sudoers
测试:sudo ifconfig
复制代码
来自创建sudo无密码登陆
开始安装
如遇到问题 无法检测到 Agent 发出的检测信号,可参考:Cloudera Manager5 在线bin安装遇到 无法检测到 Agent 发出的检测信号 总结
这样就通信成功了,我们单击继续
下载CDH
图1
图2
主机正确性检测
这里可能会遇到如下问题:
Cloudera 建议将 /proc/sys/vm/swappiness 设置为 0。当前设置为 60。使用 sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf 以在重启后保存该设置。您可以继续进行安装,但可能会遇到问题,Cloudera Manager 报告您的主机由于交换运行状况不佳。以下主机受到影响:
解决办法:执行下面即可
-
echo 0 > /proc/sys/vm/swappiness
1.查看你的系统里面的swappiness$ cat /proc/sys/vm/swappiness
不出意外的话,你应该看到是 60
2.修改swappiness值为10$ sudo sysctl vm.swappiness=10
但是这只是临时性的修改,在你重启系统后会恢复默认的60,所以,还要做一步:$ gksudo gedit /etc/sysctl.conf
在这个文档的最后加上这样一行:vm.swappiness=10
数据库设置:
这里使用默认设置,然后单击测试连接即可
审核更改
同样这里采用的是默认设置
创建服务
这里是一个关键点,很多人会遇到错误。
并且有的服务创建成功,有的创建失败,于是我们点击重试,那么对于成功的服务,他就不会再次出现,这就就是为什么,加入有19个服务,在此重试的时候,你可能会看到2个服务。
在这里遇到的错误是内存不够用,所以我们server最好是5个G,另外两个节点是3G,至少2G。我这里的内存分布是:有一个master,三个datanode.
server节点有namenode和datanode两个节点。
因为内存少,所以就遇到了下面问题:
Command aborted because of exception: Command timed-out after 90 seconds
程序: hdfs/hdfs.sh ["mkdir","/tmp","hdfs","supergroup","1777"]
复制代码
上面是命令超时。
解决办法:
再次重试,相信能过的。
假如这里你遇到了其它的问题,那么可以通过上图中的角色日志查看问题原因。
由于上面两个服务安装失败,所以在此点击重试的时候,剩下两个服务,创建成功
最后集群创建成功
指定主机开始可能会碰到的问题
注意:问题1
这里安装的时候,相信你会碰到下面问题
Detecting Cloudera Manager Server...
Detecting Cloudera Manager Server...
BEGIN host -t PTR 192.168.1.198
198.1.168.192.in-addr.arpa domain name pointer localhost.
END (0)
using localhost as scm server hostname
BEGIN which python
/usr/bin/python
END (0)
BEGIN python -c 'import socket; import sys; s = socket.socket(socket.AF_INET); s.settimeout(5.0); s.connect((sys.argv[1], int(sys.argv[2]))); s.close();' localhost 7182
Traceback (most recent call last):
File "<string>", line 1, in <module>
File "<string>", line 1, in connect
socket.error: [Errno 111] Connection refused
END (1)
could not contact scm server at localhost:7182, giving up
waiting for rollback request
解决办法:
mv /usr/bin/host /usr/bin/host.bak
复制代码
问题2:
在这个过程中还发生些问题,就是安装完毕和cloudera-scm-agent通信异常,不能检测到心跳。
具体解决办法,参考:Cloudera Manager5 在线bin安装遇到No socket could be created on[Errno 99] 总结
问题3:集群安装意外终止,该如何恢复
图1
图2
这是一个很漫长的过程,不幸的是在下载完毕,执行分发的时候,这个过程被打断,安装被终止。导致回不到图2,这个该如何解决?
难道真的要重装吗?花费了大半天功夫,又不得不重来。
这里面的问题是找不到cloudera manager5所管理的节点了?
about云有这篇文章卸载 Cloudera Manager 5.1.x.和 相关软件【官网翻译:高可用】
但是这篇文章是卸载Cloudera Manager以及CDH的,由于cloudera-scm-server和cloudera-scm-agent查看都是运行正常的,如何查看状态,可以参考:
Cloudera Manager Server5及Cloudera Manager Agents5命令整理(about云),所以cloudera manager不需要卸载,卸载的是CDH的相关内容。
于是执行下面命令:
sudo apt-get remove avro-tools crunch flume-ng hadoop-hdfs-fuse hadoop-hdfs-nfs3 hadoop-httpfs hbase-solr hive-hbase hive-webhcat hue-beeswax hue-hbase hue-impala hue-pig hue-plugins hue-rdbms hue-search hue-spark hue-sqoop hue-zookeeper impala impala-shell kite llama mahout oozie pig pig-udf-datafu search sentry solr-mapreduce spark-python sqoop sqoop2 whirr
复制代码
sudo apt-get clean
复制代码
sudo rm -Rf /var/lib/flume-ng /var/lib/hadoop* /var/lib/hue /var/lib/navigator /var/lib/oozie /var/lib/solr /var/lib/sqoop* /var/lib/zookeeper
复制代码
sudo rm -Rf /dfs /mapred /yarn
复制代码
进入目录:
删掉/var/lib/cloudera-scm-agent里面的
response.avro uuid
最后终于找回
通过上面终于找到所管理的三个节点。然后从新登录,选择三个主机,然后继续继续,最后终于进入了这个界面。总算没有重新安装
如果还未找回,则进入下面目录:删掉/var/lib/cloudera-scm-agent里面的
response.avro uuid
/var/lib/cloudera-scm-agent# rm *
复制代码
找回
如果出现了下面情况,说明parcel错误,如果遇到这样的情况不能解决,就只能重装了。
CDH 5.1.3-1.cdh5.1.3.p0.12 1 个错误
-
parcel CDH-5.1.3-1.cdh5.1.3.p0.12-unknown 的本地 parcel 错误:一个或多个主机没有报告其操作系统分配。这可能是由于运行已过期的 Cloudera Manager Agent 版本造成的。请运行 Host Inspector 检查 Agent 版本。。