线程Dump

1.1 什么是Java线程Dump

线程Dump是非常有用的诊断Java应用问题的工具，每一个Java虚拟机都有及时生成显示所有线程在某一点状态的线程Dump的能力。虽然各个Java虚拟机线程dump打印输出格式上略微有一些不同，但是线程dump出来的信息包含线程基本信息；线程的运行状态、标识和调用的堆栈；调用的堆栈包含完整的类名，所执行的方法，如果可能的话还有源代码的行数。

JVM（java虚拟机）中的许多问题都可以使用线程Dump文件来进行诊断，其中比较典型的包括线程阻塞，CPU 使用率过高，JVM Crash，堆内存不足，和类装载等问题。

1.2 如何生成

在不同的操作系统下，产生线程 DUMP的方式是不同的：

1) 在 windows环境中

在启动程序的控制台里敲： Ctrl - Break，线程的 dump会产生在标准输出中（缺省标准输出就是控制台，如果对输出进行了重定向，则要查看输出文件）。

2) 在 unix， linux和 MacOS 环境中

在控制台中敲： Ctrl-\，或者，用“kill -3 <pid>”，或者“kill –QUIT <pid>”。 Pid是用所关注的 JAVA进程号，您可以用“ps -ef | grep java”找到，或者使用 JDK 5.0中的“jps -v”命令获得。

3) 在各个操作系统平台，都可以用 JDK 5.0工具包中的 jstack <pid>

这里要注意的是：

1. 不同的 JAVA虚机的线程 DUMP的创建方法和文件格式是不一样的，不同的 JVM版本， dump信息也有差别。本文中，只以 SUN的 hotspot JVM 5.0_06 为例。

在实际运行中，往往一次 dump的信息，还不足以确认问题。建议产生三次 dump信息，如果每次 dump都指向同一个问题，我们才确定问题的典型性。

第2章线程Dump分析

2.1 JVM线程

在线程中，有一些 JVM内部的后台线程，来执行譬如垃圾回收，或者低内存的检测等任务，这些线程往往在 JVM初始化的时候就存在，如下所示：

"Low Memory Detector" daemon prio=10 tid=0x081465f8 nid=0x7 runnable [0x00000000..0x00000000]

如有红色标注的daemon字样，表明是后台线程。

实际分析中观察的更多的是用户线程，如下所示：

"Thread-1" prio=10 tid=0x08223860 nid=0xa waiting on condition [0xef47a000..0xef47ac38]

at (Native Method)

at .method2(:53)

- locked <0xef63d600> (a )

at (:35)

at (:595)

其中包括：

1. 线程的一些基本信息：名称、优先级及id

2. 线程状态：waiting on condition

3. 线程的调用栈

4. 线程锁住的资源：locked <0x3f63d600>

2.2 线程状态分析

正如我们刚看到的那样，线程的状态是一个重要的指标，它会显示在线程 Stacktrace的头一行结尾的地方。

2.2.1 Runnable

该状态表示线程具备所有运行条件，在运行队列中准备操作系统的调度，或者正在运行。

2.2.2 Waiting on condition

该状态出现在线程等待某个条件的发生。具体是什么原因，可以结合 stacktrace来分析。最常见的情况是线程在等待网络的读写，比如当网络数据没有准备好读时，线程处于这种等待状态，而一旦有数据准备好读之后，线程会重新激活，读取并处理数据。在 Java引入 NewIO之前，对于每个网络连接，都有一个对应的线程来处理网络的读写操作，即使没有可读写的数据，线程仍然阻塞在读写操作上，这样有可能造成资源浪费，而且给操作系统的线程调度也带来压力。在 NewIO里采用了新的机制，编写的服务器程序的性能和可扩展性都得到提高。

如果发现有大量的线程都在处在 Wait on condition，从线程 stack看，正等待网络读写，这可能是一个网络瓶颈的征兆。因为网络阻塞导致线程无法执行。一种情况是网络非常忙，几乎消耗了所有的带宽，仍然有大量数据等待网络读写；另一种情况也可能是网络空闲，但由于路由等问题，导致包无法正常的到达。所以要结合系统的一些性能观察工具来综合分析，比如 netstat统计单位时间的发送包的数目，如果很明显超过了所在网络带宽的限制 ; 观察 cpu的利用率，如果系统态的 CPU时间，相对于用户态的 CPU时间比例较高，这些都指向由于网络带宽所限导致的网络瓶颈。

另外一种出现 Wait on condition的常见情况是该线程在 sleep，等待 sleep的时间到了时候，将被唤醒。

2.2.3 Waiting for monitor entry 和 in ()

在多线程的 JAVA程序中，实现线程之间的同步，就要说说 Monitor。 Monitor是 Java中用以实现线程之间的互斥与协作的主要手段，它可以看成是对象或者 Class的锁。每一个对象都有，也仅有一个 monitor。下面这个图，描述了线程和 Monitor之间关系，以及线程的状态转换图：

从图中可以看出，每个 Monitor在某个时刻，只能被一个线程拥有，该线程就是“Active Thread”，而其它线程都是“Waiting Thread”，分别在两个队列“ Entry Set”和“Wait Set”里面等候。在“Entry Set”中等待的线程状态是“Waiting for monitor entry”，而在“Wait Set”中等待的线程状态是“in ()”。

先看“Entry Set”里面的线程。我们称被 synchronized保护起来的代码段为临界区。当一个线程申请进入临界区时，它就进入了“Entry Set”队列。对应的代码就像：

synchronized(obj) {

.........

}

这时有两种可能性：

l 该 monitor不被其它线程拥有， Entry Set里面也没有其它等待线程。本线程即成为相应类或者对象的 Monitor的 Owner，执行临界区的代码（也就是请求的资源没有被锁住）

l 该 monitor被其它线程拥有，本线程在 Entry Set队列中等待。（也就是请求的资源正在被其它线程处理，也就是锁住了，要等待锁的解除）

在第一种情况下，线程将处于“Runnable”的状态，而第二种情况下，线程 DUMP会显示处于“waiting for monitor entry”。如下所示：

"Thread-0" prio=10 tid=0x08222eb0 nid=0x9 waiting for monitor entry [0xf927b000..0xf927bdb8]

at (:39)

- waiting to lock <0xef63bf08> (a )

- locked <0xef63beb8> (a )

at (:595)

临界区的设置，是为了保证其内部的代码执行的原子性和完整性。但是因为临界区在任何时间只允许线程串行通过，这和我们多线程的程序的初衷是相反的。如果在多线程的程序中，大量使用 synchronized，或者不适当的使用了它，会造成大量线程在临界区的入口等待，造成系统的性能大幅下降。如果在线程 DUMP中发现了这个情况，应该审查源码，改进程序。

现在再来看现在线程为什么会进入“Wait Set”。当线程获得了 Monitor，进入了临界区之后，如果发现线程继续运行的条件没有满足，它则调用对象（一般就是被 synchronized 的对象）的 wait() 方法，放弃了 Monitor，进入“Wait Set”队列。只有当别的线程在该对象上调用了 notify() 或者 notifyAll() ，“ Wait Set”队列中线程才得到机会去竞争，但是只有一个线程获得对象的 Monitor，恢复到运行态。在“Wait Set”中的线程， DUMP中表现为： in ()，类似于：

"Thread-1" prio=10 tid=0x08223250 nid=0xa in () [0xef47a000..0xef47aa38]
        at (Native Method)
        - waiting on <0xef63beb8> (a )
        at (:474)
        at (:40)
        - locked <0xef63beb8> (a )
        at (:595)

仔细观察上面的 DUMP信息，你会发现它有以下两行：

- locked <0xef63beb8> (a )
- waiting on <0xef63beb8> (a )

这里需要解释一下，为什么先 lock了这个对象，然后又 waiting on同一个对象呢？让我们看看这个线程对应的代码：

synchronized(obj) {

.........

();

.........

}

线程的执行中，先用 synchronized 获得了这个对象的 Monitor（对应于 locked <0xef63beb8> ）。当执行到 (), 线程即放弃了 Monitor的所有权，进入“wait set”队列（对应于 waiting on <0xef63beb8> ）。

往往在程序中，会出现多个类似的线程，他们都有相似的 DUMP信息。这也可能是正常的。比如，在程序中，有多个服务线程，设计成从一个队列里面读取请求数据。这个队列就是 lock以及 waiting on的对象。当队列为空的时候，这些线程都会在这个队列上等待，直到队列有了数据，这些线程被 Notify，当然只有一个线程获得了 lock，继续执行，而其它线程继续等待。

2.3 JDK5.0的lock

上面提到如果 synchronized和monitor机制运用不当，可能会造成多线程程序的性能问题。在 JDK 5.0中，引入了Lock机制，从而使开发者能更灵活的开发高性能的并发多线程程序，可以替代以往 JDK中的 synchronized和 Monitor的机制。但是，要注意的是，因为 Lock类只是一个普通类， JVM无从得知 Lock对象的占用情况，所以在线程 DUMP中，也不会包含关于 Lock的信息，关于死锁等问题，就不如用 synchronized的编程方式容易识别。

1.1 什么是Java线程Dump

1.2 如何生成

第2章 线程Dump分析

2.1 JVM线程

2.2 线程状态分析

2.2.1 Runnable

2.2.2 Waiting on condition

2.2.3 Waiting for monitor entry 和 in ()

2.3 JDK5.0的lock

相关文章

第2章线程Dump分析