前言
往往被问到Java与C/C++有什么区别的时候,最先想到的答案就是Java可与自动回收内存垃圾。
在JVM学习中,垃圾回收几乎是最重要的知识点。
那么,自动垃圾回收机制到底是如何实现的呢,下面我们来梳理一遍。
什么是垃圾回收
垃圾回收(Garbage Collection)诞生于1960年 MIT 的 Lisp 语言,距今已经超过半个世纪了。
垃圾回收顾名思义,就是收集垃圾,JVM中的垃圾就是指的内存中不再使用的对象。
将这些不再使用的对象清除,给后来的新对象腾地方。
后文我们简称GC。
垃圾回收的区域
Java 的自动内存管理主要是针对对象内存的回收和对象内存的分配。
Java 堆是垃圾收集器管理的主要区域,而 Java 自动内存管理最核心的功能是 堆 内存中对象的分配与回收,因此也被称作GC 堆(Garbage Collected Heap)。
从垃圾回收的角度,由于现在收集器基本都采用分代垃圾收集算法,所以 Java 堆还可以细分:
堆分为新生代(占堆1/3),老生代(占堆2/3)
- 新生代(内部比例8:1:1)
- Eden 空间
- From Survivor 空间
- To Survivor 空间
- 老年代
进一步划分的目的是更好地回收内存,或者更快地分配内存。
垃圾回收机制
流程
- 大多数情况,对象都会首先在 Eden 区域分配,当 eden 区没有足够空间进行分配时,虚拟机将发起一次新生代垃圾回收(Minor GC)。
- 大对象会直接进入老年代,为了避免为大对象分配内存时由于分配担保机制带来的复制而降低效率。
- 在一次Minor GC后,如果对象还存活,则会进入两个Survivor中的一个,然后对象的年龄加 1。
- 它的年龄增加到年龄阈值(默认为 15 ),就会被晋升到老年代中。
- 当老年代空间不足时,将会触发老年代回收(Major GC)
针对 HotSpot 实现,它里面的 GC 其实准确分类只有两大种:
部分收集 (Partial GC):
- 新生代收集(Minor GC / Young GC):只对新生代进行垃圾收集;
- 老年代收集(Major GC / Old GC):只对老年代进行垃圾收集。
- 混合收集(Mixed GC):对整个新生代和部分老年代进行垃圾收集。
整堆收集 (Full GC):收集整个 Java 堆和方法区。
对象晋升到老年代的年龄阈值,可以通过参数
-XX:MaxTenuringThreshold
设置
怎么判断对象已经死亡
垃圾回收前的第一步就是要判断哪些对象已经死亡,主要用到如下几种算法来判断。
引用计数法
原理很简单,如下:
给对象中添加一个引用计数器,每当有一个地方引用它,计数器就加 1;
当引用失效,计数器就减 1;任何时候计数器为 0 的对象就是不可能再被使用的。
这个算法实现简单,效率高,但是目前主流的虚拟机中并没有选择这个算法来管理内存,其最主要的原因是它很难解决对象之间相互循环引用的问题。
循环引用就是两个对象互相引用,但是又没有其他任何对象使用这两个对象,两个对象就像是互相抱着的两个孤儿,非常可怜。
可达性分析算法
这个原理也很简单,如下:
- 定义一系列的称为 “GC Roots” 的对象作为根起点
- 从这些节点开始向下搜索,节点所走过的路径称为引用链
- 当一个对象到 GC Roots 没有任何引用链相连的话,则证明此对象是不可用的
可作为 GC Roots 的对象包括下面几种:
- 虚拟机栈(栈帧中的本地变量表)中引用的对象
- 本地方法栈(Native 方法)中引用的对象
- 方法区中类静态属性引用的对象
- 方法区中常量引用的对象
- 所有被同步锁持有的对象
不可达的对象并非一定会回收
发现不可达时,这些对象暂时处于“缓刑阶段”,要真正宣告一个对象死亡,至少要经历两次标记过程:
第一次标记,筛选的条件是此对象是否有必要执行 finalize 方法。
被判定为需要执行的对象将会被放在一个队列中进行第二次标记,除非这个对象与引用链上的任何一个对象建立关联,否则就会被真的回收。
关于引用
JDK1.2 之前,Java 中引用的定义很传统:如果 reference 类型的数据存储的数值代表的是另一块内存的起始地址,就称这块内存代表一个引用。
JDK1.2 以后,Java 对引用的概念进行了扩充,将引用分为强引用、软引用、弱引用、虚引用四种(引用强度逐渐减弱)
下面我们来看看这四种引用
强引用(StrongReference)
强引用非常霸道,只要是强引用,一定不会被GC回收,即便是内存不够,即便要OOM也不会回收它。
软引用(SoftReference)
如果内存空间足够,垃圾回收器就不会回收它,如果内存空间不足了,就会回收这些对象的内存。
只要垃圾回收器没有回收它,该对象就可以被程序使用。软引用可用来实现内存敏感的高速缓存。
弱引用(WeakReference)
只要发现了只具有弱引用的对象,就会直接回收。
不过,由于垃圾回收器是一个优先级很低的线程, 因此不一定会很快发现那些只具有弱引用的对象。
弱引用与软引用的区别在于:只具有弱引用的对象拥有更短暂的生命周期。
虚引用(PhantomReference)
"虚引用"顾名思义,就是形同虚设,与其他几种引用都不同,虚引用并不会决定对象的生命周期。
如果一个对象仅持有虚引用,那么它就和没有任何引用一样,在任何时候都可能被垃圾回收。
虚引用主要用来跟踪对象被垃圾回收的活动。
虚引用与软引用和弱引用的一个区别在于: 虚引用必须和引用队列(ReferenceQueue)联合使用。
当垃圾回收器准备回收一个对象时,如果发现它还有虚引用,就会在回收对象的内存之前,把这个虚引用加入到与之关联的引用队列中。程序可以通过判断引用队列中是否已经加入了虚引用,来了解被引用的对象是否将要被垃圾回收。
程序如果发现某个虚引用已经被加入到引用队列,那么就可以在所引用的对象的内存被回收之前采取必要的行动。
特别注意,在程序设计中一般很少使用弱引用与虚引用,使用软引用的情况较多,这是因为软引用可以加速 JVM 对垃圾内存的回收速度,可以维护系统的运行安全,防止内存溢出(OOM)等问题的产生。
判断废弃常量
假如在字符串常量池中存在字符串 "abc",如果当前没有任何 String 对象引用该字符串常量的话,就说明常量 "abc" 就是废弃常量,如果这时发生内存回收的话而且有必要的话,"abc" 就会被系统清理出常量池了。
判断无用类
类需要同时满足下面 3 个条件才能算是 “无用的类” :
- 该类所有的实例都已经被回收,也就是 Java 堆中不存在该类的任何实例。
- 加载该类的 ClassLoader 已经被回收。
- 该类对应的
java.lang.Class
对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法。
虚拟机可以对满足上述 3 个条件的无用类进行回收,这里说的仅仅是“可以”,而并不是和对象一样不使用了就会必然被回收。
垃圾收集算法
标记-清除算法
该算法分为“标记”和“清除”阶段:
- 首先标记出所有不需要回收的对象
- 标记完成后统一回收掉所有没有被标记的对象。
它是最基础的收集算法,后续的算法都是对其不足进行改进得到。
这种垃圾收集算法会带来两个明显的问题:
- 效率问题,需要遍历两次进行清除
- 空间问题,标记清除后会产生大量不连续的碎片
标记-复制算法
标记-复制算法是标记-清除算法的改进版本。
可以将内存分为大小相同的两块,每次使用其中的一块。
当这一块的内存使用完后,就将还存活的对象复制到另一块去,然后再把使用的空间一次清理掉。
这样就使每次的内存回收都是对内存区间的一半进行回收。
标记-整理算法
根据老年代的特点提出的一种标记算法,标记过程仍然与“标记-清除”算法一样,但后续步骤不是直接对可回收对象回收,而是让所有存活的对象向一端移动,然后直接清理掉端边界以外的内存。
分代收集算法
分代收集就是将新生代和老年代分开,根据各自的特点选择合适的收集算法。
比如在新生代中,收集很频繁,并且数量很多,所以可以选择标记-复制算法,只需要付出少量对象的复制成本就可以完成每次垃圾收集。
而老年代的对象存活几率是比较高的,而且没有额外的空间对它进行分配担保,标记-整理算法就很合适
垃圾收集器
垃圾收集算法是垃圾收集的实现原理,而垃圾收集器就是内存回收的具体实现。
实际生产中,我们需要根据自己的需求来选择合适的垃圾收集器,需要记住一点,没有最好的,只有最合适的。
CMS 收集器
CMS(Concurrent Mark Sweep)收集器是一种以获取最短回收停顿时间为目标的收集器。
CMS收集器非常符合在注重用户体验的应用上使用
CMS收集器是 HotSpot 第一款真正意义上的并发收集器,实现了让垃圾收集线程与用户线程(基本上)同时工作。
CMS 收集器使用 “标记-清除”算法。
整个过程分为四个步骤:
- 初始标记: 暂停所有的其他线程,并记录下直接与 root 相连的对象,速度很快 ;
-
并发标记:
- 同时开启 GC 和用户线程,用一个闭包结构去记录可达对象。
- 在阶段结束,闭包结构不能保证包含当前所有的可达对象。
- 因为用户线程可能会不断的更新引用域,所以 GC 线程无法保证可达性分析的实时性。
- 所以此算法里会跟踪记录这些发生引用更新的地方。
-
重新标记:
- 修正并发标记期间因为用户程序继续运行而导致标记产生变动的那一部分对象的标记记录,
- 停顿时间一般会比初始标记阶段的时间稍长,远远比并发标记阶段时间短。
- 并发清除: 开启用户线程,同时 GC 线程开始对未标记的区域做清扫。
优点:并发收集、低停顿。
缺点:
- 对 CPU 资源敏感。
- 无法处理浮动垃圾。
- 收集结束时会有大量空间碎片产生。
Serial 收集器
Serial(串行)收集器是最基本、历史最悠久的垃圾收集器了。
它收集器是一个单线程收集器了:
新生代采用标记-复制算法
老年代采用标记-整理算法
它最大的特点就是进行GC时,会阻塞其他线程。
它的优点是简单高效,在单线程收集器中几乎就是最快的存在,但是由于会阻塞其他线程,这让他的使用起来体验并不算好。
ParNew 收集器
ParNew 收集器是 Serial 收集器的多线程版本,除了使用多线程进行垃圾收集外,其余行为和 Serial 收集器完全一样。
它是许多运行在 Server 模式下的虚拟机的首要选择,除了 Serial 收集器外,只有它能与 CMS 收集器配合工作。
Parallel Scavenge 收集器
JDK1.8 默认使用的是 Parallel Scavenge + Parallel Old
JDK1.8 默认收集器
Parallel Scavenge 收集器几乎和 ParNew 是一样。
区别在于:
Parallel Scavenge 收集器关注点是吞吐量(高效率的利用 CPU)
CMS 等垃圾收集器的关注点更多的是用户线程的停顿时间(提高用户体验)。
Serial Old 收集器
Serial 收集器的老年代版本,它同样是一个单线程收集器。它主要有两大用途:
一种用途是在 JDK1.5 以及以前的版本中与 Parallel Scavenge 收集器搭配使用,另一种用途是作为 CMS 收集器的后备方案。
Parallel Old 收集器
Parallel Scavenge 收集器的老年代版本。
使用多线程和“标记-整理”算法。在注重吞吐量以及 CPU 资源的场合,都可以优先考虑 Parallel Scavenge 收集器和 Parallel Old 收集器。
G1 收集器
G1 (Garbage-First) 是一款面向服务器的垃圾收集器,主要针对配备多颗处理器及大容量内存的机器。
以极高概率满足 GC 停顿时间要求的同时,还具备高吞吐量性能特征。
非常强的一款垃圾收集器,甚至它可能会引领JVM垃圾收集的未来。
它具备一下特点:
-
并行与并发:
- G1 能充分利用 CPU、多核环境下的硬件优势,使用多个 CPU(CPU 或者 CPU 核心)来缩短停顿时间。
- 部分其他收集器原本需要停顿 Java 线程执行的 GC 动作,G1 收集器仍然可以通过并发的方式让 Java 程序继续执行。
- 分代收集:虽然 G1 可以不需要其他收集器配合就能独立管理整个 GC 堆,但是还是保留了分代的概念。
-
空间整合:
- G1 从整体来看是基于标记-整理算法实现的收集器;
- 从局部上来看是基于标记-复制算法实现的。
- 可预测的停顿:降低停顿时间是 G1 和 CMS 共同的关注点,但 G1 除了追求低停顿外,还能建立可预测的停顿时间模型,能让使用者明确指定在一个长度为 M 毫秒的时间片段内。
G1 收集器的运作大致分为以下几个步骤:
- 初始标记
- 并发标记
- 最终标记
- 筛选回收
G1 收集器在后台维护了一个优先列表,每次根据允许的收集时间,优先选择回收价值最大的 Region(这也就是它的名字 Garbage-First 的由来) 。
这种使用 Region 划分内存空间以及有优先级的区域回收方式,保证了 G1 收集器在有限时间内可以尽可能高的收集效率(把内存化整为零)。
ZGC 收集器
与G1 类似,但又互有不同,这里不展开了,感兴趣可以自行了解。
参考
- 《深入理解Java虚拟机》第三版,再次吹爆!