hadoop 集群的常用命令

时间:2025-04-05 08:06:48

以下是一些 Hadoop 集群的常用命令,包括针对 HDFS(Hadoop 分布式文件系统)和 MapReduce 作业等方面,且相对不太常见:

 

HDFS 权限相关:

- 修改文件或目录的所有者: hdfs dfs -chown [-R] <owner>[:<group>] <path>  。例如, hdfs dfs -chown -R hadoop:hadoop /user/hadoop/data  , -R  选项用于递归修改目录及其子目录和文件的所有者。

 

- 修改文件或目录的权限: hdfs dfs -chmod [-R] <mode> <path>  。比如, hdfs dfs -chmod -R 755 /user/hadoop/project  , -R  同样用于递归操作, 755  是权限模式。

 

HDFS 统计信息:

- 获取文件系统的统计信息: hdfs dfsadmin -report  。这个命令会显示集群中各个数据节点的信息,包括节点状态、存储使用情况等。

 

- 显示文件或目录的磁盘空间使用情况: hdfs dfs -du [-s] [-h] <path>  。 -s  选项用于汇总指定路径下的总大小, -h  选项以人类可读的格式显示大小,如  hdfs dfs -du -s -h /user/hadoop/data  。

 

MapReduce 作业相关:

- 查看 MapReduce 作业的计数器信息: yarn application -appInfo <applicationId> -counter  。可以通过作业 ID 查看作业运行过程中的各种计数器值,了解作业的执行情况。

 

- 杀死一个 MapReduce 作业: yarn application -kill <applicationId>  。当发现作业异常或不需要继续运行时,可使用该命令终止作业。

 

Hadoop 守护进程管理:

- 安全模式相关:进入安全模式  hdfs dfsadmin -safemode enter  ,在安全模式下,HDFS 只允许读操作,用于维护集群状态;离开安全模式  hdfs dfsadmin -safemode leave  。

- 重新加载 HDFS 的配置: hdfs dfsadmin -refreshNamenodes <datanode_host:port>  。当数据节点的配置发生变化时,可使用此命令让 NameNode 重新加载该数据节点的信息。