1.1 什么是Java线程Dump
线程Dump是非常有用的诊断Java应用问题的工具,每一个Java虚拟机都有及时生成显示所有线程在某一点状态的线程Dump的能力。虽然各个Java虚拟机线程dump打印输出格式上略微有一些不同,但是线程dump出来的信息包含线程基本信息;线程的运行状态、标识和调用的堆栈;调用的堆栈包含完整的类名,所执行的方法,如果可能的话还有源代码的行数。
JVM(java虚拟机)中的许多问题都可以使用线程Dump文件来进行诊断,其中比较典型的包括线程阻塞,CPU 使用率过高,JVM Crash,堆内存不足,和类装载等问题。
1.2 如何生成
在不同的操作系统下,产生线程 DUMP的方式是不同的:
1) 在 windows环境中
在启动程序的控制台里敲: Ctrl - Break,线程的 dump会产生在标准输出中(缺省标准输出就是控制台,如果对输出进行了重定向,则要查看输出文件)。
2) 在 unix, linux和 MacOS 环境中
在控制台中敲: Ctrl-\,或者,用“kill -3 <pid>”,或者“kill –QUIT <pid>”。 Pid是用所关注的 JAVA进程号,您可以用“ps -ef | grep java”找到,或者使用 JDK 5.0中的“jps -v”命令获得。
3) 在各个操作系统平台,都可以用 JDK 5.0工具包中的 jstack <pid>
这里要注意的是:
1. 不同的 JAVA虚机的线程 DUMP的创建方法和文件格式是不一样的,不同的 JVM版本, dump信息也有差别。本文中,只以 SUN的 hotspot JVM 5.0_06 为例。
在实际运行中,往往一次 dump的信息,还不足以确认问题。建议产生三次 dump信息,如果每次 dump都指向同一个问题,我们才确定问题的典型性。
第2章 线程Dump分析
2.1 JVM线程
在线程中,有一些 JVM内部的后台线程,来执行譬如垃圾回收,或者低内存的检测等任务,这些线程往往在 JVM初始化的时候就存在,如下所示:
"Low Memory Detector" daemon prio=10 tid=0x081465f8 nid=0x7 runnable [0x00000000..0x00000000]
如有红色标注的daemon字样,表明是后台线程。
实际分析中观察的更多的是用户线程,如下所示:
"Thread-1" prio=10 tid=0x08223860 nid=0xa waiting on condition [0xef47a000..0xef47ac38]
at (Native Method)
at .method2(:53)
- locked <0xef63d600> (a )
at (:35)
at (:595)
其中包括:
1. 线程的一些基本信息:名称、优先级及id
2. 线程状态:waiting on condition
3. 线程的调用栈
4. 线程锁住的资源:locked <0x3f63d600>
2.2 线程状态分析
正如我们刚看到的那样,线程的状态是一个重要的指标,它会显示在线程 Stacktrace的头一行结尾的地方。
2.2.1 Runnable
该状态表示线程具备所有运行条件,在运行队列中准备操作系统的调度,或者正在运行。
2.2.2 Waiting on condition
该状态出现在线程等待某个条件的发生。具体是什么原因,可以结合 stacktrace来分析。最常见的情况是线程在等待网络的读写,比如当网络数据没有准备好读时,线程处于这种等待状态,而一旦有数据准备好读之后,线程会重新激活,读取并处理数据。在 Java引入 NewIO之前,对于每个网络连接,都有一个对应的线程来处理网络的读写操作,即使没有可读写的数据,线程仍然阻塞在读写操作上,这样有可能造成资源浪费,而且给操作系统的线程调度也带来压力。在 NewIO里采用了新的机制,编写的服务器程序的性能和可扩展性都得到提高。
如果发现有大量的线程都在处在 Wait on condition,从线程 stack看,正等待网络读写,这可能是一个网络瓶颈的征兆。因为网络阻塞导致线程无法执行。一种情况是网络非常忙,几乎消耗了所有的带宽,仍然有大量数据等待网络读写;另一种情况也可能是网络空闲,但由于路由等问题,导致包无法正常的到达。所以要结合系统的一些性能观察工具来综合分析,比如 netstat统计单位时间的发送包的数目,如果很明显超过了所在网络带宽的限制 ; 观察 cpu的利用率,如果系统态的 CPU时间,相对于用户态的 CPU时间比例较高,这些都指向由于网络带宽所限导致的网络瓶颈。
另外一种出现 Wait on condition的常见情况是该线程在 sleep,等待 sleep的时间到了时候,将被唤醒。
2.2.3 Waiting for monitor entry 和 in ()
在多线程的 JAVA程序中,实现线程之间的同步,就要说说 Monitor。 Monitor是 Java中用以实现线程之间的互斥与协作的主要手段,它可以看成是对象或者 Class的锁。每一个对象都有,也仅有一个 monitor。下面这个图,描述了线程和 Monitor之间关系,以及线程的状态转换图:
从图中可以看出,每个 Monitor在某个时刻,只能被一个线程拥有,该线程就是“Active Thread”,而其它线程都是“Waiting Thread”,分别在两个队列“ Entry Set”和“Wait Set”里面等候。在“Entry Set”中等待的线程状态是“Waiting for monitor entry”,而在“Wait Set”中等待的线程状态是“in ()”。
先看“Entry Set”里面的线程。我们称被 synchronized保护起来的代码段为临界区。当一个线程申请进入临界区时,它就进入了“Entry Set”队列。对应的代码就像:
synchronized(obj) {
.........
}
这时有两种可能性:
l 该 monitor不被其它线程拥有, Entry Set里面也没有其它等待线程。本线程即成为相应类或者对象的 Monitor的 Owner,执行临界区的代码(也就是请求的资源没有被锁住)
l 该 monitor被其它线程拥有,本线程在 Entry Set队列中等待。(也就是请求的资源正在被其它线程处理,也就是锁住了,要等待锁的解除)
在第一种情况下,线程将处于“Runnable”的状态,而第二种情况下,线程 DUMP会显示处于“waiting for monitor entry”。如下所示:
"Thread-0" prio=10 tid=0x08222eb0 nid=0x9 waiting for monitor entry [0xf927b000..0xf927bdb8]
at (:39)
- waiting to lock <0xef63bf08> (a )
- locked <0xef63beb8> (a )
at (:595)
临界区的设置,是为了保证其内部的代码执行的原子性和完整性。但是因为临界区在任何时间只允许线程串行通过,这和我们多线程的程序的初衷是相反的。如果在多线程的程序中,大量使用 synchronized,或者不适当的使用了它,会造成大量线程在临界区的入口等待,造成系统的性能大幅下降。如果在线程 DUMP中发现了这个情况,应该审查源码,改进程序。
现在再来看现在线程为什么会进入“Wait Set”。当线程获得了 Monitor,进入了临界区之后,如果发现线程继续运行的条件没有满足,它则调用对象(一般就是被 synchronized 的对象)的 wait() 方法,放弃了 Monitor,进入“Wait Set”队列。只有当别的线程在该对象上调用了 notify() 或者 notifyAll() ,“ Wait Set”队列中线程才得到机会去竞争,但是只有一个线程获得对象的 Monitor,恢复到运行态。在“Wait Set”中的线程, DUMP中表现为: in (),类似于:
"Thread-1" prio=10 tid=0x08223250 nid=0xa in () [0xef47a000..0xef47aa38]
at (Native Method)
- waiting on <0xef63beb8> (a )
at (:474)
at (:40)
- locked <0xef63beb8> (a )
at (:595)
仔细观察上面的 DUMP信息,你会发现它有以下两行:
- locked <0xef63beb8> (a )
- waiting on <0xef63beb8> (a )
这里需要解释一下,为什么先 lock了这个对象,然后又 waiting on同一个对象呢?让我们看看这个线程对应的代码:
synchronized(obj) {
.........
();
.........
}
线程的执行中,先用 synchronized 获得了这个对象的 Monitor(对应于 locked <0xef63beb8> )。当执行到 (), 线程即放弃了 Monitor的所有权,进入“wait set”队列(对应于 waiting on <0xef63beb8> )。
往往在程序中,会出现多个类似的线程,他们都有相似的 DUMP信息。这也可能是正常的。比如,在程序中,有多个服务线程,设计成从一个队列里面读取请求数据。这个队列就是 lock以及 waiting on的对象。当队列为空的时候,这些线程都会在这个队列上等待,直到队列有了数据,这些线程被 Notify,当然只有一个线程获得了 lock,继续执行,而其它线程继续等待。
2.3 JDK5.0的lock
上面提到如果 synchronized和monitor机制运用不当,可能会造成多线程程序的性能问题。在 JDK 5.0中,引入了Lock机制,从而使开发者能更灵活的开发高性能的并发多线程程序,可以替代以往 JDK中的 synchronized和 Monitor的机制。但是,要注意的是,因为 Lock类只是一个普通类, JVM无从得知 Lock对象的占用情况,所以在线程 DUMP中,也不会包含关于 Lock的信息,关于死锁等问题,就不如用 synchronized的编程方式容易识别。