JVM系列文章(二):垃圾回收机制

时间:2022-12-20 00:02:59

作为一个程序员,仅仅知道怎么用是远远不够的。起码,你需要知道为什么可以这么用,即我们所谓底层的东西。

那到底什么是底层呢?我觉得这不能一概而论。以我现在的知识水平而言:对于Web开发者,TCP/IP、HTTP等等协议可能就是底层;对于C、C++程序员,内存、指针等等可能就是底层的东西。那对于Java开发者,你的Java代码运行所在的JVM可能就是你所需要去了解、理解的东西。

我会在接下来的一段时间,和读者您一起去学习JVM,所有内容均参考自《深入理解Java虚拟机:JVM高级特性与最佳实践》(第二版),感谢作者。


本文是系列文章第二篇,讲述的是JVM的垃圾回收机制,即在虚拟机上,怎么判断哪些内存应该被回收、又是通过怎样的方式去回收的。

如果您对于Java内存区域还不太了解,建议您先阅读系列文章第一篇:JVM系列文章(一):Java内存区域分析


一、判断是否可以回收


Java内存区域中,程序计数器、虚拟机栈、本地方法栈3个区域随线程而生,随线程而灭;栈中的栈帧随着方法的进出而出栈入栈。每个栈帧中分配多少内存基本是在类结构确定时就已知的。因此这几个区域的内存分配和回收都具有确定性。因为方法结束或者线程结束时,内存自然就跟着回收了。而Java堆和方法区则不同,只有运行时才知道会创建哪些对象,垃圾收集器所关注的是这部分内存。
垃圾收集器在对堆进行回收前,首先当然是要确定哪些对象可以被回收,即已经“死了”,不可能再被使用到了。这个问题有两种算法:

1.引用计数算法

给对象添加一个引用计数器,每当有一个地方引用它时,计数器值就加1;当引用失效时,计数器值就减1。计数器值为0的对象就是不可能再被使用的。 这种算法实现简单,判定效率也高,但是它无法解决对象之间循环引用的问题。

2.可达性分析算法

这个算法的基本思路就是通过一系列的成为“GC Roots”的对象作为起始点,从这些节点开始向下搜索,搜索所走过的路径成为引用链,当一个对象到GC Roots没有任何引用链相连时,则证明此对象是不可用的。
可作为GC Roots的对象包括下面几种: 虚拟机栈(栈帧中的本地变量表)中引用的对象 方法区中类静态属性引用的对象 方法去中常量引用的对象 本地方法栈中JNI(即一般所说的Native方法)引用的对象
这两种算法都与“引用”有关,那到底什么是引用? 如果reference类型的数据中存储的数值代表的是另外一块内存的起始地址,就称这块内存代表着一个引用。 这样的话,对象就只有被引用或者没有被引用两种状态,对于一些食之无味弃之可惜的对象显得无能为力。 我们希望能够描述这样一类对象:当内存空间足够时,能保留在内存中;如果内存空间在进行垃圾回收后还是非常紧张,就抛弃这些对象。很多系统的缓存功能都符合这样的场景。
JDK1.2之后Java的引用被分为强引用、软引用、弱引用、虚引用4种。这4种引用强度依次逐渐减弱。
强引用指类似"Object obj=new Object()"这类的引用,只要强引用还存在,垃圾回收器永远不会回收掉被引用的对象。 软引用用来描述一些还有用但并非必须的对象。在系统将要发生内存溢出异常之前,将会把这些对象列进回收范围中进行第二次回收。用SoftReference类实现。 弱引用也描述非必需对象,只能存活到下一次垃圾回收之前。用WeakReference类实现。 虚引用也被称为幽灵引用,为一个对象设置虚引用的唯一目的就是能在这个对象被垃圾回收时收到一个系统通知。用PhantomReference类实现。
即便在可达性分析算法中不可达的对象,也并不是必须被回收的:如果这个对象不可达,就会被第一次标记并且进行筛选,筛选的条件是此对象是否有必要执行finailize()方法。如果对象没有覆盖finailize()方法或者这个方法已经被虚拟机调用过,就没有必要执行。如果有必要执行,这个对象会被放置在F-Queue队列之中,由一个虚拟机自动建立的、低优先级的Finalizer线程去执行它。如果finalize()方法中它重新与引用链关联,就摆脱了被回收的命运。(比如在finalize方法中写 XXX.xx=this) 需要注意的是,自救的机会只有一次,因为一个对象的finailize方法只会被系统自动调用一次。

回收方法区

主要是回收方法区的常量和类。 常量:比如没有一个String对象引用常量池的"abc",也没有其他地方引用,那"abc"就会被清理出常量池。 类: 判断类是否需要被回收要满足下列3个条件: 该类的所有实例已经被回收; 加载该类的ClassLoader已经被回收; 该类对应的java.lang.Class对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法。

二、垃圾收集算法


1.标记-清除算法

首先标记出所有需要回收的对象,在标记完成之后统一回收所有比标记的对象。 不足:第一是效率问题,标记和清除两个过程的效率都不高;另一个是空间问题,标记清除之后会产生大量不连续的内存碎片。

2.复制算法

把内存分为大小相等的两块,每次只用其中一块。当这一块的用完了,就把还存活的对象复制到另一块,然后再把已经用过的内存空间一次清理掉。

3.标记-整理算法

与标记清除类似,但是不是直接对可回收对象进行清理,而是让所有存活的对象都向一端移动,然后直接清理掉端边界以外的内存。

4.分代收集

根据对象存活周期的不同将内存划分为几块。一般是把Java堆分为新生代和老年代,这样就可以根据各个年代的特点采用最适当的收集算法。在新生代中,每次垃圾收集时都有大批对象死去,只有少量存活,那就使用复制算法,只需要付出少量存活对象的复制成本就可以完成收集。老年代中存活率高,使用标记清理或者标记整理算法来回收。
更详细的: http://www.importnew.com/19255.html


三、安全点和安全区域


1.安全点

在需要GC时,只有到了安全点才能停止其他线程的工作。安全点不能太少以至于让GC等太久,又不能太多以至于过分增加运行时负担。一般只有方法调用、循环跳转、异常跳转等指令会产生安全点。 中断方式有两种:抢先式中断和主动式中断。 抢先式中断:在GC发生时首先把所有线程全部中断,如果发现有线程中断的地方不在安全点上就恢复线程让他跑到安全点上。(现在几乎不用) 主动式中断:在GC需要中断线程时,设置一个标志,各个线程执行时主动轮询,发现中断标志时就中断挂起。轮询标志的地方和安全点重合,另外再加上创建对象需要分配内存的地方。

2.安全区域

安全点可能遇到的问题: 线程处于Sleep或者Blocked状态,这时候线程无法响应JVM的中断请求,“走”到安全点去中断挂起,JVM也不太可能等到线程重新被分配CPU。 这种情况就需要安全区域来解决。 安全区域是指在一段代码片段中,引用关系不会发生变化。在这个区域的任何地方开始GC都是安全的。可以把它看做是拓展的安全点。线程执行到安全区域的代码时,标志自己进入了安全区域,当JVM发起GC时就不用管这些线程了。线程离开安全区域时,要检查是否完成了根节点枚举(或是整个GC过程),如果完成就继续执行,否则就等待。

四、各种垃圾收集器


1.Serial收集器

新生代收集器,复制算法,单线程,只会使用一个CPU或者一条收集线程去完成垃圾收集工作。在它进行收集时,必须暂停其他所有的工作线程,直到收集结束。

2.ParNew收集器

Serial的多线程版本,使用多条线程进行垃圾收集。

3.Parallel Scavenge收集器

新生代收集器,复制算法,多线程。它的关注点与其他收集器不同,其他的关注点是尽可能缩短垃圾收集时用户线程的停顿时间,而它的目标则是达到一个可控制的吞吐量(CPU运行代码的时间 /CPU总消耗时间)。停顿时间短不太表吞吐量大,因为可能是把新生代的内存总量缩小了。原来500M,10s收集一次,每次停顿100ms;现在300M,5s一次,每次70ms,停顿时间下降了,但是吞吐量也下降了。

4.Serial Old收集器

老年代,单线程,标记-整理算法。

5.Parallel Old收集器

Parallel Scavenge的老年代版本。使用多线程和标记-整理算法。

6.CMS收集器

Concurrent Mark Sweep收集器是一种以获取最短回收停顿时间为目标的收集器。一般应用在服务端。
整个收集过程分为4个步骤: 初始标记:标记GC Roots能直接关联到的对象 并发标记:进行GC Roots Tracing(形成链路) 重新标记:修改并发标记期间因用户程序继续运作而导致标记产生变动的那一部分对象的标记记录,这个阶段停顿时间一般比初始标记长,但远比并发标记时间短 并发清除
整个过程中并发标记和并发清楚都可以和用户线程一起工作。 优点:并发收集、低停顿。 缺点:对CPU资源敏感(面向并发的程序都对CPU资源敏感)、无法处理浮动垃圾(在清理时又有新垃圾产生)

7.G1收集器

Garbage-First 收集器,面向服务端。 特点: 并行与并发、分代收集、空间整合、可预测的停顿

五、内存分配


1.对象优先在新生代的Eden区中分配

新生代还有两个Survivor区。当Eden区没有足够空间时,发起一次Minor GC。

新生代GC(Minor GC):指发生在新生代的垃圾收集动作,因为Java对象大多朝生夕灭,所以MInor GC非常频繁,速度也快。 老年代GC(Major/Full GC):指发生在老年代的GC。

2.大对象直接进入老年代


比如特别长的字符串(对于字符串占用内存不太清楚的话,可以参考http://www.jb51.net/article/59935.htm)、特别大的数组。

3.长期存活的对象进入老年代


虚拟机给每个对象定义了一个对象年龄计数器。如果对象在Eden出生并经过第一次MinorGC后仍然存活,并且能够被Survivor容纳的话,将被移动到Survivor空间中,对象年龄设为1。对象在Survivor中每熬过一次MinorGC,年龄就增加1,到达一定程度(默认15岁)就被晋升到老年代中。

4.动态对象年龄判定


如果在Survivor空间中相同年龄所有对象大小的总和大小大于Survivor空间的一般,年龄大于或等于该年龄的对象直接进入老年代。