虚拟机类加载机制--《深入理解Java虚拟机》学习笔记

时间:2021-09-22 10:34:59

虚拟机类加载机制–《深入理解Java虚拟机》学习笔记

一、类加载机制概况

    虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机直接使用的java类型,这就是虚拟机的类加载机制。
与其他语言不同的是,java语言中,类的加载、链接和初始化等操作是在程序运行期间完成的,所谓的动态加载机制就是根据java这一特性产生的。虚拟机的整个工作流程可以概括为:虚拟机获取Class(字节码)文件,然后将Class文件经过加载链接等操作转化为可被虚拟机直接使用的数据;而这里的Class文件可以来源于任何语言、任何地方甚至是网络中的二进制字节流,只要满足虚拟机的格式要求即可,所以,在这一点上java虚拟机已经做到了语言无关性。

二、类加载时机
虚拟机类加载机制--《深入理解Java虚拟机》学习笔记

    类从被加载到虚拟机内存到卸载出内存,整个生命周期包括:加载、验证、准备、解析、初始化、使用、卸载。其中,加载、验证、准备、初始化和卸载这5个阶段严格按照要求的顺序执行,而解析可以在初始化之前(正常情况),也可以在初始化之后(动态绑定)。
在类的整个生命周期中,虚拟机规范只是对初始化阶段作了严格的限定,而其他阶段并没有作强制约束。对于初始化阶段,有且只有5种情况必须立即对类进行初始化,这5种场景中的行为成为对一个类的主动引用;除此之外,所有引用类的方式都不能触发类的初始化,称为对一个类的被动引用。5种场景如下:
  1. 遇到new、getstatic、putstatic或者invokestatic这4条字节码指令时,如果没有进行过初始化,先进行初始化。生成这4条指令的最常用的java代码场景是:使用new关键字实例化对象的时候、读取或设置一个类的静态字段(被final修饰、已在编译期把结果放入常量池的静态字段除外)的时候,以及调用一个类的静态方法的时候;
  2. 使用java.lang.reflect包的方法对类进行反射调用的时候,如果类没有进行过初始化,触发类的初始化;
  3. 当初始化一个类的时候,发现它的父类还没有初始化,先触发其父类的初始化操作;
  4. 当虚拟机启动时,用户需要指定一个要执行的主类(包含main()方法的那个类),虚拟机先初始化这个主类;
  5. 当使用JDK1.7的动态语言支持时,如果一个java.lang.invoke.MethodHandle实例最后的解析结果REF_getStatic、REF_putStatic、REF_invokeStatic的方法句柄,并且这个句柄所对应的类没有进行过初始化,需要先触发其初始化;

    注意:接口的加载过程和类的加载过程稍微有一点不同,体现在初始化阶段5种场景中的第3种情况,对于类而言,初始化时发现父类没有初始化,需要先初始化父类,对于接口而言,初始化时不要求父接口全部完成初始化,只有真正用到父接口的时候才进行初始化。

三、类加载的过程

  1. “加载阶段”——虚拟机主要完成以下3件事情:

    • 通过一个类的全限定名来获取定义此类的二进制字节流;
    • 将这个字节流所代表的静态存储结构转化为方法区的运行时数据结构;
    • 在内存中生成一个代表这个类的java.lang.Class对象,作为方法区这个类的各种数据的访问入口;

    当然,这3件事情并不具体,比如“通过一个类的全限定名来获取定义此类的二进制字节流”这条,并没有指明这个字节流来源于哪里,可以是Class文件、zip包(jar包)、网络、运行时计算生成(动态代理技术)等等;相比类加载过程的其他阶段,一个非数组类的加载过程是开发人员可控性最强的,因为加载阶段既可以使用系统提供的类加载器完成,也可以由用户自定义加载器完成,开发人员可以通过自定义加载器去控制字节流的获取方法(即重写一个类加载器的loadClass()方法);而对于数组类来说就不一样了,数组类本身不通过类加载器创建,它由java虚拟机直接创建,但是数组类的元素类型最终要靠类加载器去创建,一个数组类的创建过程遵循以下规则:

    • 如果数组的组件类型是引用类型,那就递归采用非数组类型的加载过程去加载这个组件类型,数组C将在加载该组件类型的类加载器的类名称空间上被标识;
    • 如果数组的组件类型不是引用类型,java虚拟机将会把数组C标记为与引导类加载器关联;
    • 数组类的可见性与它的组件类型的可见性一致,如果组件类型不是引用类型,那数组类的可见性默认为public;

    注意:加载阶段与连接阶段的部分内容(如一部分字节码文件格式验证动作)是交叉进行的,加载阶段尚未完成,连接阶段可以已经开始。

2.“验证”阶段

验证是为了确保Class文件的字节流中包含的信息符合虚拟机要求,并且不会危害虚拟机的安全,但是这一阶段很耗时。虽然java语言本身是相对安全的(由java编译而来的Class文件通常都满足要求),但是Class文件可以来自任何地方,因此不能保证所有的Class文件都符合虚拟机要求,那么验证就显得非常重要了;总体来讲,验证分为:文件格式验证、元数据验证、字节码验证、符号引用验证。
  1. 文件格式验证:验证字节流是否符合Class文件格式的规范,并且能被当前虚拟机正常处理。这阶段的验证是基于二进制字节流进行的,只有通过了验证,字节流才能进入内存的方法区中进行存储,所以后面的3个验证是基于方法区中的存储结构进行的。
  2. 元数据验证:对类的元数据信息进行语义校验,保证二进制字节码描述的信息符合java语言规范,验证点如下:
    • 这个类是否有父类(除java.lang.Object外,所有类都应当有父类);
    • 这个类的父类是否继承了不被允许继承的类(被final修饰);
    • 如果这个类不是抽象类,是否实现了其父类和接口中要求实现的方法;
    • 类中的字段、方法是否是否与父类产生矛盾(例如覆盖了父类的final字段,或出现了不符合规则的方法重载);
  3. 字节码验证:通过数据流和控制流分析,确定程序语义是否合法、符合逻辑。元数据验证是对类的数据类型进行校验,字节码验证是对类的方法体进行校验,保证方法在运行时不会产生危害虚拟机的行为,例如:

    • 保证任意时刻操作数栈的数据类型与指令代码序列都能配合工作,例如不会出现在操作数栈放置了一个int类型的数据,使用时却按long类型来加载入本地变量表中;
    • 保证跳转指令不会跳转到方法体以外的字节码指令上;
    • 保证方法体中的类型转换是有效的,例如可以把一个子类对象赋值给父类数据类型,但不能反过来;
  4. 符号引用验证:发生在虚拟机将符号引用转化为直接引用的时候,这个转化将在解析阶段发生。符号引用验证可以看做是对类自身以外的信息进行匹配性验证,目的是确保解析正常执行,验证点如下:

    • 符号引用中通过字符串描述的全限定名是否能找到对应的类;
    • 在指定类中是否存在符合方法的字段描述符以及简单名称所描述的方法和字段;
    • 符号引用中的类、字段、方法的访问性(private、protected、public、default)是否可被当前类访问;

3.“准备”阶段

准备阶段是正式为类变量分配内存并设置类变量初始值的阶段,在此强调一下这里的变量是类变量,不是实例变量,初始值指的是数据类型的零值,这些变量所使用的内存都将在方法区中进行分配。

4.“解析”阶段

解析阶段是虚拟机将常量池内的符号引用替换为直接引用的过程,符号引用在Class文件中它以CONSTANT_Class_info、CONSTANT_Fieldref_info、CONSTANT_Methodref_info等类型的常量出现。解析动作主要针对类或接口、字段、类方法、接口方法、方法类型、方法句柄和调用点限定符7类符号引用进行
  • 符号引用:符号引用以一组符号描述所引用的目标,可以是任何形式的字面量,只要能够无歧义地定位到目标即可。与虚拟机内存布局无任何关系;
  • 直接引用:直接指向目标的指针、相对偏移量或者是一个能间接定位到目标的句柄。与虚拟机内存布局相关,同一符号引用在不同虚拟机实例上翻译出来的直接引用一般不会相同,如果有了直接引用,那引用的目标在内存中肯定存在;
  • 类或接口的解析:假设当前代码所处的类为D,如果要把一个从未解析过的符号引用N解析为一个类或接口C的直接引用,需要3步:

    1. 如果C不是一个数组类型,那虚拟机会把代表N的全限定名传递给D的类加载器去加载类C。加载过程中,由于元数据验证、字节码验证的需要,又可能触发其他相关类的加载动作,例如这个类的父类或者实现的接口。一旦出现任何异常,解析则失败。
    2. 如果C是一个数组类型,并且数组的元素类型为对象,也就是N的描述符会是类似“[Ljava/lang/Integer”的形式,那将会按照1点的规则加载数组元素类型。如果N的描述如前面假设的形式,需要加载的元素类型就是“java.lang.Integer”,接着由虚拟机生成一个代表数组维度和元素的数组对象。
    3. 如果上面步骤没出现任何异常,那么C在虚拟机中实际上已经成为一个有效的类或接口了,但在解析完成之前还要进行符号引用验证,确保D是否具备对C的访问权限,如果不具备访问权限,抛出java.lang.IllegalAccessError异常。
  • 字段解析:要解析一个未被解析过的字段符号引用,首先会对字段所属的类或接口的符号引用进行解析,解析失败,则字段解析失败,解析成功,那将字段所属的类或接口用C表示,按如下步骤对C进行后续字段的搜索:

    1. 如果C本身就包含了简单名称和字段描述符都与目标相匹配的字段,则返回这个字段的直接引用,查找结束。
    2. 否则,如果在C中实现了接口,将会按照继承关系从下往上递归搜索各个接口和它的父接口,如果接口中包含了简单名称和字段描述符都与目标相匹配的字段,则返回这个字段的直接引用,查找结束。
    3. 否则,如果C不是java.lang.Object的话,将会按照继承关系从下往上递归搜索其父类,如果父类中包含了简单名称和字段描述符都与目标相匹配的字段,则返回这个字段的直接引用,查找结束。
    4. 否则,查找失败,抛出java.lang.NoSuchFieldError异常。
      如果在查找中返回了引用,就会对该字段进行权限验证,如果该字段不具备访问权限,抛出java.lang.IllegalAccessError异常。
  • 类方法解析:类方法解析第一步与字段解析一样,如果解析成功,依然用C表示这个类,执行后续的类方法搜索:

    1. 类方法和接口方法符号引用的常量类型定义是分开的,如果类方法表中发现class_index中索引的C是个接口,那抛出异常。
    2. 如果通过了第1步,在类C中查找是否有简单名称和描述符都与目标相匹配的方法,如果有则返回这个方法的直接引用,查找结束。
    3. 否则,在类C中递归查找是否有简单名称和描述符都与目标相匹配的方法,如果有则返回这个方法的直接引用,查找结束。
    4. 否则,在类C实现的接口列表及他们的父接口之中递归查找是否有简单名称和描述符都与目标相匹配的方法,如果存在匹配的方法,说明类C是一个抽象类,查找结束,抛出java.lang.AbstractMethodError异常。
    5. 否则,宣告方法查找失败,抛出java.lang.NoSuchMethodError。
      最后,如果查找过程成功返回了直接引用,像字段解析一样进行权限验证。
  • 接口方法解析:接口方法解析第一步与字段方法解析相同,如果解析成功,依然用C表示这个接口,接下来虚拟机执行接口方法搜索:

    1. 如果在接口方法表中发现class_index中索引C是个类而不是接口,直接抛出java.lang.IncompatibleClassChangeError异常。
    2. 否则,在接口C中查找是否有简单名称和描述符都与目标相匹配的方法,如果有则返回这个方法的直接引用,查找结束。
    3. 否则,在接口C的父接口中递归查找,直到java.lang.Object(查找范围包括Object类)为止,看是否有简单名称和描述符都与目标相匹配的方法,如果有则返回这个方法的直接引用,查找结束。
    4. 否则,宣告方法查找失败,抛出java.lang.NoSuchMethodError异常。

5.“初始化”阶段

类初始化是类加载过程的最后一步,也是真正开始执行类中定义的java程序代码;在准备阶段,变量已经赋过一次系统要求的初始值,初始化阶段,根据程序员的要求去初始化变量和其他资源,换个角度讲:程序初始化阶段是执行类构造器<clinit>()方法的过程;<clinit>()方法执行过程如下:
  • <clinit>()方法是由编译器自动收集类中所有类变量的赋值动作和静态语句块(static{}块)中的语句合并产生的,收集过程由语句在源文件中出现的顺序决定,静态语句块只能访问到定义在静态语句块之前的变量,定义在它之后的变量,在前面的静态语句块可以赋值,但不能访问;
  • <clinit>()方法与类的构造函数(实例构造器<init>()方法)不同,它不需要显示地调用父类构造器,虚拟机会保证在子类的<clinit>()方法执行前,父类的<clinit>()已经执行完毕,因此在虚拟机中第一个被执行的<clinit>()方法的类肯定是java.lang.Object;
  • 由于父类的<clinit>()方法先执行,即父类的静态语句块先于子类的变量赋值操作;
  • <clinit>()对于类或者接口来说并不是必须的,如果类中没有静态语句块,也就没有变量的赋值操作,那么编译器可以不为这个类生成<clinit>()方法;
  • 接口中不能有静态语句块,但有变量初始化的赋值操作,因此接口与类都会生成<clinit>()方法,不同的是,执行接口的<clinit>()不需要先执行父接口的<clinit>()方法,只有当父接口中定义的变量使用时,父接口才会初始化,另外,接口的实现类初始化时也一样不会执行接口的<clinit>()方法;
  • 虚拟机会保证一个类的<clinit>()方法在多线程下被正确的加锁、同步,即同一时刻只有一个线程可以执行这个类的<clinit>()方法,其它线程阻塞;当执行<clinit>()方法那条线程执行完该方法后,其它线程就不会再进入该方法,即同一个类的加载器下,一个类型只会被初始化一次;

四、类加载器

虚拟机中,将“通过一个类的全限定名来获取描述此类的二进制字节流”这个动作放在虚拟机外部实现,以便让程序自己决定如何获取这个类,实现这个动作的代码模块称为“类加载器”。这一特性极大的丰富了热部署、热更新等操作。对于任何一个类,都需要由加载它的类加载器和这个类本身一同确立其在虚拟机中的唯一性,每个类加载器,都拥有一个独立的类名称空间;如果两个类相等,即这两个类是同一个类,而且加载它们的类加载器是同一个类加载器,这里的“相等”,包括代表类的Class对象的equals()方法、isAssignableFrom()方法、isInstance()方法的返回结果,也包括使用instanceof关键字做对象所属关系判定等情况。
从虚拟机的角度讲,存在两种类加载器:启动类加载器(Bootstrap ClassLoader,C++实现)和所有其他的类加载器(java实现,独立于虚拟机外部,继承抽象类java.lang.ClassLoader);从java开发者角度讲,有三种类加载器,如下:
  • 启动类加载器(Bootstrap ClassLoader):这个类将存放在<JAVA_HOME>\lib目录中的,或者被-Xbootclasspath参数所指定的路径中的,并且是虚拟机识别的类库加载到虚拟机内存中。如果在java程序中想直接用启动类加载器,需要将加载器设置为null;
  • 拓展类加载器(Extension ClassLoader):由sun.misc.Launcher$ExtClassLoader实现,负责加载<JAVA_HOME>\lib\ext目录中的,或者被java.ext.dirs系统变量所指定的路径中的所有类库,java程序可直接使用;
  • 应用程序加载器(Application ClassLoader):由sun.misc.Launcher$AppClassLoader实现,由于这个类加载器是ClassLoader中getSystemClassLoader()方法的返回值,因此一般称为系统类加载器,负责加载用户路径上所指定的类库,java程序可直接使用,如果用户程序中没有自定义过类加载器,一般情况下这个就是默认的类加载器;

  • 双亲委派模型
    虚拟机类加载机制--《深入理解Java虚拟机》学习笔记

    如图所示,类加载器之间的这种层次关系,称为类加载器的双亲委派模型(PDM)。除了顶层的启动类加载器外,其余的类加载器都应当有自己的父类加载器,这种父子关系不以继承关系实现,而是以组合关系来复用父加载器的代码。
    工作过程:如果一个类加载器收到了类加载的请求,它首先不会自己去尝试加载这个类,而是把这个请求委派给父类加载器去完成,每一个层次的类加载器都是如此,因此所有的加载请求最终都应该传送到顶层的启动类加载器,只有当父加载器反馈自己无法完成这个加载请求(它的搜索范围中没有找到所需的类)时,子加载器才会尝试自己去加载。这样,java类随着它的类加载器一起具备了优先级关系。
    实现过程:实现双亲委派的代码集中在java.lang.ClassLoader的loadClass()方法总,逻辑大概是:先检查是否已经被加载过,若没有加载则调用父加载器的loadClass()方法,若父加载器为空则默认使用启动类加载器作为父加载器,如果父加载器失败,抛出ClassNotFoundException异常后,再调用自己的findClass()方法进行加载。因此,自定义类加载器只需实现java.lang.ClassLoader的findClass()方法即可。