线上应用故障排查:高CPU占用

时间:2021-05-25 13:59:21

转自:hankchen,http://www.blogjava.net/hankchen

一个应用占用CPU很高,除了确实是计算密集型应用之外,通常原因都是出现了死循环。

以我们最近出现的一个实际故障为例,介绍怎么定位和解决这类问题。

线上应用故障排查:高CPU占用

根据top命令,发现PID为28555的Java进程占用CPU高达200%,出现故障。

通过ps aux | grep PID命令,可以进一步确定是tomcat进程出现了问题。但是,怎么定位到具体线程或者代码呢?

首先显示线程列表:

ps -mp pid -o THREAD,tid,time   或(top -H -p PID 查看对应进程的哪个线程占用CPU过高)

线上应用故障排查:高CPU占用

找到了耗时最高的线程28802,占用CPU时间快两个小时了!

其次将需要的线程ID转换为16进制格式:

printf "%x\n" tid

线上应用故障排查:高CPU占用

最后打印线程的堆栈信息:

jstack pid |grep tid -A 30  或输出到文件(jstack pid >> java.txt 导出CPU占用高进程的线程栈)

线上应用故障排查:高CPU占用

找到出现问题的代码了!

最后,总结下排查CPU故障的方法和技巧有哪些:

1、top命令:Linux命令。可以查看实时的CPU使用情况。也可以查看最近一段时间的CPU使用情况。

2、PS命令:Linux命令。强大的进程状态监控命令。可以查看进程以及进程中线程的当前CPU使用情况。属于当前状态的采样数据。

3、jstack:Java提供的命令。可以查看某个进程的当前线程栈运行情况。根据这个命令的输出可以定位某个进程的所有线程的当前运行状态、运行代码,以及是否死锁等等。

4、pstack:Linux命令。可以查看某个进程的当前线程栈运行情况。