上次hadoop集群一块数据盘报警, 提交工单后维修人员更换硬盘
服务器是dell r720的, 8盘位, 蛋疼的是这些硬盘都是做的单盘raid1,维修人员说必须关机导入硬盘才能正常使用 (服务器就这样因为一块硬盘而经常关机???)
没办法关机吧, 重启动时候, 好像系统盘出现问题,无法开机. 我去机房查看了下 感觉是没有识别到系统盘, 直接启用了网络启动程序
对服务器raid配置不熟,没法搞定,只能按照维修人员的建议先更换系统盘,再重装系统了 -_-!!!
重装系统... 累得是我们啊,所有环境需要重新配置,搞不好以后还会出现各种奇怪的问题, 还是原装的好啊
一下记录新增hadoop节点的步骤, 以防万一
查看了下 我们的hadoop集群基本只需要复制家目录下所有文件就可以了
rsync -av hadoop 192.168.86.51:/home/
好的差不多搞定一半了, 主要找个小点的节点复制文件, 我选的是需要复制40多G的节点, 当然太大的话也可以通过--exclude剔除不需要复制的文件
复制完成后需要注意文件的属主问题, 可以直接复制原系统的/etc/passwd
/etc/group
/etc/shadow
文件, 这样就保持了文件属主一致了
hadoop集群需要通过hosts访问到各个节点, 所以需要复制/etc/hosts文件
因为我们的hadoop环境变量是通过/etc/profile文件设置的, 还需要更改/etc/profile文件,设置好环境变量, 当然home家目录也是有环境变量设置的,不过我们直接rsync过来了
基本不需要另行更改
更改/etc/fatab文件, 并建立好数据盘的挂载点, mount -a
看是否正常挂载, 操作之前需要将新加的硬盘分区并格式化文件系统, 并在新加的硬盘创建目录 mkdir -p /disk2/hadoop-data/data
注意保持好目录的权限, 属主属组是运行hadoop的用户. 另外这是3T的硬盘, 分区需要使用parted, 当然新版的fdisk也可以(ubuntu12.04傻笑中...)
更改hostname, 这一步应该不是必须的, 我这里需要替换之前的节点, 所以换成之前节点的名字了hostname xxxx
这个临时起作用, 还需要编辑/etc/hostname文件,保持永久生效
因为更新了系统,需要更新ssh的key文件, 这里先更新hadoop主节点的ssh密钥, 最好在其他的节点同样进行操作
做完这些就可以尝试启动hadoop节点了
运气好的话,应该是可以启动了
其他需要注意的地方
为了减少以后导致的各种问题, 最好把/etc目录下的配置文件都看下, 以免忘记配置某些重要文件
可以参考的文件有 /etc/security/limit.conf
/etc/sysctl.conf
遇到的一些坑
- 他们给我安装了一个图形话的系统, 黑人问号... 而且locale设置的还是zh_TW.UTF-8, 果断换成我大美帝啊, en_US.UTF-8
- 现在默认的系统没有vim 倒是有个vim.tiny 这是什么鬼东西? 好像连vi的功能都不如, 果断换源,安装vim
- 这里忘记说数据了, 数据这东西才是最重要的, 按照各自需求进行吧
最后的忠告
换啥系统, 要啥自行车, DELL能不能愉快玩耍啊