hadoop集群增加新节点

时间:2024-07-15 12:36:02

上次hadoop集群一块数据盘报警, 提交工单后维修人员更换硬盘

服务器是dell r720的, 8盘位, 蛋疼的是这些硬盘都是做的单盘raid1,维修人员说必须关机导入硬盘才能正常使用 (服务器就这样因为一块硬盘而经常关机???)

没办法关机吧, 重启动时候, 好像系统盘出现问题,无法开机. 我去机房查看了下 感觉是没有识别到系统盘, 直接启用了网络启动程序

对服务器raid配置不熟,没法搞定,只能按照维修人员的建议先更换系统盘,再重装系统了 -_-!!!

重装系统... 累得是我们啊,所有环境需要重新配置,搞不好以后还会出现各种奇怪的问题, 还是原装的好啊

一下记录新增hadoop节点的步骤, 以防万一

查看了下 我们的hadoop集群基本只需要复制家目录下所有文件就可以了

rsync -av hadoop 192.168.86.51:/home/

好的差不多搞定一半了, 主要找个小点的节点复制文件, 我选的是需要复制40多G的节点, 当然太大的话也可以通过--exclude剔除不需要复制的文件

复制完成后需要注意文件的属主问题, 可以直接复制原系统的/etc/passwd /etc/group /etc/shadow 文件, 这样就保持了文件属主一致了

hadoop集群需要通过hosts访问到各个节点, 所以需要复制/etc/hosts文件

因为我们的hadoop环境变量是通过/etc/profile文件设置的, 还需要更改/etc/profile文件,设置好环境变量, 当然home家目录也是有环境变量设置的,不过我们直接rsync过来了

基本不需要另行更改

更改/etc/fatab文件, 并建立好数据盘的挂载点, mount -a 看是否正常挂载, 操作之前需要将新加的硬盘分区并格式化文件系统, 并在新加的硬盘创建目录 mkdir -p /disk2/hadoop-data/data注意保持好目录的权限, 属主属组是运行hadoop的用户. 另外这是3T的硬盘, 分区需要使用parted, 当然新版的fdisk也可以(ubuntu12.04傻笑中...)

更改hostname, 这一步应该不是必须的, 我这里需要替换之前的节点, 所以换成之前节点的名字了hostname xxxx 这个临时起作用, 还需要编辑/etc/hostname文件,保持永久生效

因为更新了系统,需要更新ssh的key文件, 这里先更新hadoop主节点的ssh密钥, 最好在其他的节点同样进行操作

做完这些就可以尝试启动hadoop节点了

运气好的话,应该是可以启动了

其他需要注意的地方

为了减少以后导致的各种问题, 最好把/etc目录下的配置文件都看下, 以免忘记配置某些重要文件

可以参考的文件有 /etc/security/limit.conf /etc/sysctl.conf

遇到的一些坑

  1. 他们给我安装了一个图形话的系统, 黑人问号... 而且locale设置的还是zh_TW.UTF-8, 果断换成我大美帝啊, en_US.UTF-8
  2. 现在默认的系统没有vim 倒是有个vim.tiny 这是什么鬼东西? 好像连vi的功能都不如, 果断换源,安装vim
  3. 这里忘记说数据了, 数据这东西才是最重要的, 按照各自需求进行吧

最后的忠告

换啥系统, 要啥自行车, DELL能不能愉快玩耍啊