最近在部署Hadoop集群,启动集群之后,使用jps查看启动状态。master服务器的输出如下:
其中一台119服务器输出如下:
但是服务器118使用jps之后却没有任何输出。
经过检查,118上面的datanode是启动成功并且能够正确运行的。
后来发现,jps没有输出不是集群配置出错,而是权限出问题。
java程序启动以后,会在/tmp目录下生成一个hsperfdata_username的文件夹,这个文件夹的文件,就是以java进程的pid命名。因此使用jps查看当前进程的时候,其实就是把/tmp/hsperfdata_username中的文件名遍历一遍之后输出。如果/tmp/hsperfdata_username的文件所有者和文件所属用户组与启动进程的用户不一致的话,在进程启动之后,就没有权限写/tmp/hsperfdata_username,所以/tmp/hsperfdata_username是一个空文件,理所当然jps也就没有任何显示。
利用ls -l /tmp看119服务器下/hsperfdata_hostname的属性
再查看118服务器上的/tmp/hsperfdata_dumz的属性:
可以看到,文件所有者和文件所属用户组是不一样的。当前用户所属为dumz dumz,没有权限去写文件所有者1002和文件所属用户1002的/tmp/hsperfdata_dumz。
利用chown修改/tmp/hsperfdata_dumz的文件所有者和文件所属用户组,然后再重新启动集群,利用jps就可以看到当前进程了。