CDH 生产环境: NameNode is not formatted问题处理

时间:2025-04-12 07:46:17

背景

因升级JN节点,需要将JN迁移到其他机器,该节点有三台在迁移过程中我迁移其中一台。
在HDFS页面进行角色迁移,选择当前角色机器和目标机器,提示需要重启整个集群(前提是需要确保是否有人员在使用)。重启后出现错误导致HA中Master无法启动

错误信息

引导备用 NameNode
Failed to bootstrap Standby NameNode NameNode (cluster-master): STARTUP_MSG:   build = /cloudera/hadoop -r 91e45acfc3e208d656c3ec1c1a0abe4a8de6ad4c; compiled by 'jenkins' on 2016-01-26T00:19Z
STARTUP_MSG:   java = 1.7.0_67
************************************************************/
19/01/15 11:11:47 INFO : registered UNIX signal handlers for [TERM, HUP, INT]
19/01/15 11:11:47 INFO : createNameNode [-bootstrapStandby, -nonInteractive]
Running in non-interactive mode, and data appears to exist in Storage Directory /data1/dfs/nn. Not formatting.
19/01/15 11:11:49 INFO : Exiting with status 5
19/01/15 11:11:49 INFO : SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at /10.12.50.49
************************************************************/

查看日志

2019-01-15 13:24:55,058 INFO : Computing capacity for map NameNodeRetryCache
2019-01-15 13:24:55,058 INFO : VM type       = 64-bit
2019-01-15 13:24:55,058 INFO : 0.029999999329447746% max memory 4.9 GB = 1.5 MB
2019-01-15 13:24:55,058 INFO : capacity      = 2^18 = 262144 entries
2019-01-15 13:24:55,063 INFO : ACLs enabled? false
2019-01-15 13:24:55,063 INFO : XAttrs enabled? true
2019-01-15 13:24:55,063 INFO : Maximum size of an xattr: 16384
2019-01-15 13:24:55,080 INFO : Lock on /data1/dfs/nn/in_use.lock acquired by nodename 15050@
2019-01-15 13:24:55,083 WARN : Encountered exception loading fsimage
: NameNode is not formatted.
	at (:212)
	at (:1061)
	at (:765)
	at (:609)
	at (:666)
	at .<init>(:838)
	at .<init>(:817)
	at (:1538)
	at (:1606)
2019-01-15 13:24:55,096 INFO : Stopped HttpServer2$SelectChannelConnectorWithSafeStartup@:50070
2019-01-15 13:24:55,196 INFO .: Stopping NameNode metrics system...
2019-01-15 13:24:55,197 INFO .: NameNode metrics system stopped.
2019-01-15 13:24:55,198 INFO .: NameNode metrics system shutdown complete.
2019-01-15 13:24:55,198 ERROR : Failed to start namenode.
: NameNode is not formatted.
	at (:212)
	at (:1061)
	at (:765)
	at (:609)
	at (:666)
	at .<init>(:838)
	at .<init>(:817)
	at (:1538)
	at (:1606)
2019-01-15 13:24:55,202 INFO : Exiting with status 1
2019-01-15 13:24:55,205 INFO : SHUTDOWN_MSG: 

关注点在:

2019-01-15 13:24:55,083 WARN : Encountered exception loading fsimage
: NameNode is not formatted.

各种百度、google搜索均是要求格式化,

hadoop namenode -format

我这生产环境能动不动就格式化吗?

解决思路

根据提示说是无法load fsimage
于是寻找fsimage所在的位置也就是edits 所在的位置
看到/data1/dfs/nn 目录下只有一个root权限的 说明系统将current目录给重命名了。
因为我的NN是HA。所以可以把current目录拷贝过来。(不能把名称改过去是因为数据已经发生变更)

操作流程

1、联系各组负责人需要对hadoop集群进行修复,暂停使用查询或其他操作
2、关闭整个集群,确认服务均已关闭
3、拷贝current数据至故障NN
scp -r  -P63008 root@YOUR_NAMENODE:/data1/dfs/nn/current/* .
4、授权
chown -R  current
5、删除/tmp 目录下的临时文件
6、重启集群
7、查看hadoop日志、cloudera manager状态正常

解决问题