Kafka：ZK+Kafka+Spark Streaming集群环境搭建（五）针对hadoop2.9.0启动之后发现slave上正常启动了DataNode,DataManager，但是过了几秒后发现DataNode被关闭

启动之后发现slave上正常启动了DataNode,DataManager，但是过了几秒后发现DataNode被关闭

以slave1上错误日期为例查看错误信息：

more /opt/hadoop-2.9./logs/hadoop-spark-datanode-slave1.log

找到错误信息：

-- ::, WARN org.apache.hadoop.hdfs.server.common.Storage: Failed to add storage directory [DISK]file:/opt/hadoop-2.9./dfs/data/

java.io.IOException: Incompatible clusterIDs in /opt/hadoop-2.9./dfs/data: namenode clusterID = CID-f1195fc7-ca7c-4a2a-b32f-211131a5d699; datanode clusterID = CID-292293a6-9c34-4de7-aecd-d72657a26dd5

        at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:)

        at org.apache.hadoop.hdfs.server.datanode.DataStorage.loadStorageDirectory(DataStorage.java:)

        at org.apache.hadoop.hdfs.server.datanode.DataStorage.loadDataStorage(DataStorage.java:)

        at org.apache.hadoop.hdfs.server.datanode.DataStorage.addStorageLocations(DataStorage.java:)

        at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:)

        at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:)

        at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:)

        at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:)

        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:)

        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:)

        at java.lang.Thread.run(Thread.java:)

-- ::, ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid f4badff3-7a0b-4db0-bd77-83b370f67eed) service to master/

.168.0.:. Exiting.

java.io.IOException: All specified directories have failed to load.

        at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:)

        at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:)

        at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:)

        at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:)

        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:)

        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:)

        at java.lang.Thread.run(Thread.java:)

-- ::, WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Ending block pool service for: Block pool <registering> (Datanode Uuid f4badff3-7a0b-4db0-bd77-83b370f67eed) service to master

/192.168.0.120:

-- ::, INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Removed Block pool <registering> (Datanode Uuid f4badff3-7a0b-4db0-bd77-83b370f67eed)

-- ::, WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Exiting Datanode

-- ::, INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG:

/************************************************************

SHUTDOWN_MSG: Shutting down DataNode at slave1/192.168.0.121

************************************************************/

解决方案

错误问题原因：多次格式化导致的。

1）在master执行sbin/stop-all.sh，关闭hadoop:

cd /opt/hadoop-2.9.

sbin/stop-all.sh

2）依次在master,slave1,slave2,slave3上执行以下命令：

cd /opt/hadoop-2.9.

rm -r dfs

rm -r logs

rm -r tmp

3）在master上重新格式化hadoop，重新启动hadoop

cd /opt/hadoop-2.9.     #进入hadoop目录

bin/hadoop namenode -format     #格式化namenode

sbin/start-all.sh               #启动dfs

[spark@master hadoop-2.9.]$ cd /opt/hadoop-2.9.     #进入hadoop目录

[spark@master hadoop-2.9.]$ bin/hadoop namenode -format     #格式化namenode

sbin/start-all.sh               #启动dfs

DEPRECATED: Use of this script to execute hdfs command is deprecated.

Instead use the hdfs command for it.

// :: INFO namenode.NameNode: STARTUP_MSG:

/************************************************************

STARTUP_MSG: Starting NameNode

STARTUP_MSG:   host = master/192.168.0.120

STARTUP_MSG:   args = [-format]

STARTUP_MSG:   version = 2.9.0

STARTUP_MSG:   classpath = /opt/hadoop-2.9.0/etc/hadoop:/opt/hadoop-2.9.0/share/hadoop/common/lib/nimbus-jose-jwt-3.9.jar:/opt/hadoop-2.9.0/share/hadoop/common/lib/java-xmlbuilder-0.4.jar:/opt/hadoop-...

STARTUP_MSG:   build = https://git-wip-us.apache.org/repos/asf/hadoop.git -r 756ebc8394e473ac25feac05fa493f6d612e6c50; compiled by 'arsuresh' on 2017-11-13T23:15Z

STARTUP_MSG:   java = 1.8.0_171

************************************************************/

// :: INFO namenode.NameNode: registered UNIX signal handlers for [TERM, HUP, INT]

// :: INFO namenode.NameNode: createNameNode [-format]

Formatting using clusterid: CID-d4e2f108-de3c--9eeb-abbbb1024fe8

// :: INFO namenode.FSEditLog: Edit logging is async:true

// :: INFO namenode.FSNamesystem: KeyProvider: null

// :: INFO namenode.FSNamesystem: fsLock is fair: true

// :: INFO namenode.FSNamesystem: Detailed lock hold time metrics enabled: false

// :: INFO namenode.FSNamesystem: fsOwner             = spark (auth:SIMPLE)

// :: INFO namenode.FSNamesystem: supergroup          = supergroup

// :: INFO namenode.FSNamesystem: isPermissionEnabled = true

// :: INFO namenode.FSNamesystem: HA Enabled: false

// :: INFO common.Util: dfs.datanode.fileio.profiling.sampling.percentage set to . Disabling file IO profiling

// :: INFO blockmanagement.DatanodeManager: dfs.block.invalidate.limit: configured=, counted=, effected=

// :: INFO blockmanagement.DatanodeManager: dfs.namenode.datanode.registration.ip-hostname-check=true

// :: INFO blockmanagement.BlockManager: dfs.namenode.startup.delay.block.deletion.sec is set to :::00.000

// :: INFO blockmanagement.BlockManager: The block deletion will start around  Jun  ::

// :: INFO util.GSet: Computing capacity for map BlocksMap

// :: INFO util.GSet: VM type       = -bit

// :: INFO util.GSet: 2.0% max memory  MB = 17.8 MB

// :: INFO util.GSet: capacity      = ^ =  entries

// :: INFO blockmanagement.BlockManager: dfs.block.access.token.enable=false

// :: WARN conf.Configuration: No unit for dfs.namenode.safemode.extension() assuming MILLISECONDS

// :: INFO blockmanagement.BlockManagerSafeMode: dfs.namenode.safemode.threshold-pct = 0.9990000128746033

// :: INFO blockmanagement.BlockManagerSafeMode: dfs.namenode.safemode.min.datanodes =

// :: INFO blockmanagement.BlockManagerSafeMode: dfs.namenode.safemode.extension =

// :: INFO blockmanagement.BlockManager: defaultReplication         =

// :: INFO blockmanagement.BlockManager: maxReplication             =

// :: INFO blockmanagement.BlockManager: minReplication             =

// :: INFO blockmanagement.BlockManager: maxReplicationStreams      =

// :: INFO blockmanagement.BlockManager: replicationRecheckInterval =

// :: INFO blockmanagement.BlockManager: encryptDataTransfer        = false

// :: INFO blockmanagement.BlockManager: maxNumBlocksToLog          =

// :: INFO namenode.FSNamesystem: Append Enabled: true

// :: INFO util.GSet: Computing capacity for map INodeMap

// :: INFO util.GSet: VM type       = -bit

// :: INFO util.GSet: 1.0% max memory  MB = 8.9 MB

// :: INFO util.GSet: capacity      = ^ =  entries

// :: INFO namenode.FSDirectory: ACLs enabled? false

// :: INFO namenode.FSDirectory: XAttrs enabled? true

// :: INFO namenode.NameNode: Caching file names occurring more than  times

// :: INFO snapshot.SnapshotManager: Loaded config captureOpenFiles: falseskipCaptureAccessTimeOnlyChange: false

// :: INFO util.GSet: Computing capacity for map cachedBlocks

// :: INFO util.GSet: VM type       = -bit

// :: INFO util.GSet: 0.25% max memory  MB = 2.2 MB

// :: INFO util.GSet: capacity      = ^ =  entries

// :: INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.window.num.buckets =

// :: INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.num.users =

// :: INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.windows.minutes = ,,

// :: INFO namenode.FSNamesystem: Retry cache on namenode is enabled

// :: INFO namenode.FSNamesystem: Retry cache will use 0.03 of total heap and retry cache entry expiry time is  millis

// :: INFO util.GSet: Computing capacity for map NameNodeRetryCache

// :: INFO util.GSet: VM type       = -bit

// :: INFO util.GSet: 0.029999999329447746% max memory  MB = 273.1 KB

// :: INFO util.GSet: capacity      = ^ =  entries

// :: INFO namenode.FSImage: Allocated new BlockPoolId: BP--192.168.0.120-

// :: INFO common.Storage: Storage directory /opt/hadoop-2.9./dfs/name has been successfully formatted.

// :: INFO namenode.FSImageFormatProtobuf: Saving image file /opt/hadoop-2.9./dfs/name/current/fsimage.ckpt_0000000000000000000 using no compression

// :: INFO namenode.FSImageFormatProtobuf: Image file /opt/hadoop-2.9./dfs/name/current/fsimage.ckpt_0000000000000000000 of size  bytes saved in  seconds.

// :: INFO namenode.NNStorageRetentionManager: Going to retain  images with txid >=

// :: INFO namenode.NameNode: SHUTDOWN_MSG:

/************************************************************

SHUTDOWN_MSG: Shutting down NameNode at master/192.168.0.120

************************************************************/

[spark@master hadoop-2.9.]$ sbin/start-all.sh               #启动dfs

This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh

Starting namenodes on [master]

master: starting namenode, logging to /opt/hadoop-2.9./logs/hadoop-spark-namenode-master.out

slave1: starting datanode, logging to /opt/hadoop-2.9./logs/hadoop-spark-datanode-slave1.out

slave3: starting datanode, logging to /opt/hadoop-2.9./logs/hadoop-spark-datanode-slave3.out

slave2: starting datanode, logging to /opt/hadoop-2.9./logs/hadoop-spark-datanode-slave2.out

Starting secondary namenodes [master]

master: starting secondarynamenode, logging to /opt/hadoop-2.9./logs/hadoop-spark-secondarynamenode-master.out

starting yarn daemons

starting resourcemanager, logging to /opt/hadoop-2.9./logs/yarn-spark-resourcemanager-master.out

slave2: starting nodemanager, logging to /opt/hadoop-2.9./logs/yarn-spark-nodemanager-slave2.out

slave3: starting nodemanager, logging to /opt/hadoop-2.9./logs/yarn-spark-nodemanager-slave3.out

slave1: starting nodemanager, logging to /opt/hadoop-2.9./logs/yarn-spark-nodemanager-slave1.out

4）过30s后，查看master,slave1,slave2,slave3是否启动成功

查看master是否启动成功：

[spark@master hadoop-2.9.]$ jps

 Jps

 ResourceManager

 NameNode

 SecondaryNameNode

[spark@master hadoop-2.9.]$

在slave1,slave2,slave3分别jps查看是否都启动了DataNode,DataManager进程：
以slave1为例：

[spark@slave1 hadoop-2.9.]$ jps

 Jps

 NodeManager

 DataNode

[spark@slave1 hadoop-2.9.]$

参考《https://blog.csdn.net/magggggic/article/details/52503502》

秒客网

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（五）针对hadoop2.9.0启动之后发现slave上正常启动了DataNode,DataManager，但是过了几秒后发现DataNode被关闭

启动之后发现slave上正常启动了DataNode,DataManager，但是过了几秒后发现DataNode被关闭

解决方案

相关文章