虚拟机类加载机制
概述
虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机直接使用的Java类型,这就是虚拟机的类加载机制。
在Java语言里面,类型的加载、连接和初始化过程都是在程序运行时期完成的。
类加载的时机
类的加载过程包括七个阶段:加载(Loading)、验证(Verification)、准备(Preparation)、解析(Resolution)、初始化(Initialization)、使用(Using)和卸载(Unloading)。其中验证、准备、解析 3个阶段统称为 连接(Linking) 。这七个阶段发生的顺序如下图:
其中加载、验证、准备、初始化和卸载5个阶段的顺序是确定的,类的加载过程必须按照这种顺序按部就班的开始,而解析阶段则不一定,它在某些情况下可以在初始化阶段之后开始,这是为了支持Java语言的运行时绑定(也成为动态绑定或晚期绑定)。另外注意这里的几个阶段是按顺序开始,而不是按顺序进行或完成,因为这些阶段通常都是互相交叉地混合进行的,通常在一个阶段执行的过程中调用或激活另一个阶段。
Java中的绑定指的是把一个方法或字段与方法或字段所在的类(方法或类的主体)关联起来,对java来说,绑定分为静态绑定和动态绑定:
- 静态绑定发生在编译时期,动态绑定发生在运行时
- 使用private或static或final修饰的变量或者方法,使用静态绑定。而虚方法(可以被子类重写的方法)则会根据运行时的对象进行动态绑定。
- 静态绑定使用类信息来完成,而动态绑定则需要使用对象信息来完成。
- 重载(Overload)的方法使用静态绑定完成,而重写(Override)的方法则使用动态绑定完成。
- 动态绑定针对的范畴只是对象的方法
动态绑定的过程:
- 虚拟机提取对象的实际类型的方法表;
- 虚拟机搜索方法签名;
- 调用方法。
什么情况下开始类加载过程的第一阶段:加载(Loading)阶段? Java虚拟机规范中并没有进行强制约束,而对于初始化阶段,虚拟机规范则严格规定了有且只有5种情况必须立即对类进行“初始化”(而加载、验证、准备自然需要在此之前开始):
- 遇到new、getstatic、putstatic、invokestatic这四条字节码指令时(使用new实例化对象的时候、读取或设置一个类的静态字段
(被final修饰、已在编译期把结果放入常量池的静态字段除外)
、调用一个类的静态方法)。- 使用java.lang.reflect包的方法对类进行反射调用的时候。
- 当初始化一个类的时候,如果发现其负类没有进行过初始化,则需要先触发其父类的初始化。
- 当虚拟机启动时,虚拟机会初始化主类(包含main方法的那个类)。
- 当使用JDK的动态语言支持时,如果一个java.lang.invoke.MethodHandle实例最后的解析结果是REF_getStatic、REF_putStatic、REF_invokeStatic的方法句柄,并且这个方法句柄对应的类没有进行过初始化,则需要先触发其初始化。
这5种会触发类进行初始化的行为称为对一个类进行主动引用。除此之外,所有引用类的方式都不会触发初始化,称为被动引用。
被动引用举例:
- 通过子类引用父类的静态字段,不会导致子类初始化(对于静态字段,只有直接定义这个字段的类才会被初始化)。
- 通过数组定义类应用类:ClassA [] array=new ClassA[10]。触发了一个名为[LClassA的类的初始化,它是一个由虚拟机自动生成的、直接继承于Object的类,创建动作由字节码指令newarray触发。
- 常量会在编译阶段存入调用类的常量池。
接口的加载过程与类加载过程稍有不同,编译器会为接口生成<client>()构造器,用于初始化接口中定义的成员变量。一个接口在初始化时,并不要求其父类接口全部完成了初始化,只有在真正使用到父接口的时候(如引用接口中定义的常量)才会初始化。
类加载的过程
接下来详细的讲解类加载全过程(加载、验证、准备、解析、初始化)的具体动作。
加载
加载是类加载过程的第一个阶段,在加载阶段,虚拟机需要完成以下三件事情:
- 通过一个类的全限定名来获取其定义的二进制字节流。
- 将这个字节流所代表的静态存储结构转化为方法区的运行时数据结构。
- 在Java堆中生成一个代表这个类的java.lang.Class对象,作为对方法区中这些数据的访问入口。
第1条中的二进制字节流并不只是单纯地从Class文件中获取,比如它还可以从Jar包中获取、从网络中获取(最典型的应用便是Applet)、由其他文件生成(JSP应用)等。
相对于类加载过程的其他阶段而言,加载阶段(准确地说,是加载阶段获取类的二进制字节流的动作)是可控性最强的阶段,因为开发人员既可以使用系统提供的类加载器来完成加载,也可以自定义自己的类加载器来完成加载。
加载阶段完成后,虚拟机外部的 二进制字节流就按照虚拟机所需的格式存储在方法区之中,方法区中的数据存储格式由虚拟机实现自行定义。然后在内存中也创建一个java.lang.Class类的对象(并没有明确规定是在Java堆中,HotSpot虚拟机是存放在方法区里),这样便可以通过该对象访问方法区中的这些数据。
加载阶段与连接阶段的部分内容(如一部分字节码文件格式验证动作)是交叉进行的。
验证
验证的目的是为了确保Class文件中的字节流包含的信息符合当前虚拟机的要求,而且不会危害虚拟机自身的安全。从整体上看,验证阶段大致会完成以下四个阶段的验证:文件格式的验证、元数据的验证、字节码验证 和 符号引用验证。
文件格式验证
验证字节流是否符合Class文件格式的规范,并且能被当前版本的虚拟机处理,该验证的主要目的是保证输入的字节流能正确地解析并存储于方法区之内。这阶段的验证是基于二进制字节流进行的,只有经过该阶段的验证后,字节流才会进入内存的方法区中进行存储,后面的三个验证都是基于方法区的存储结构进行的。
元数据验证
对类的元数据信息进行语义校验(其实就是对Java语法校验),保证不存在不符合Java语法规范的元数据信息。
字节码验证
进行数据流和控制流分析,确定程序语义是合法的、符合逻辑的。对类的方法体进行校验分析,保证被校验的类的方法在运行时不会做出危害虚拟机安全的行为。
符号引用验证
这是最后一个阶段的验证,它发生在虚拟机将符号引用转化为直接引用的时候(解析阶段),可以看作是对类自身以外的信息(常量池中的各种符号引用)进行匹配性的校验。符号引用验证的目的是确保解析动作能正常执行。
验证阶段是一个非常重要的,但不是一定必要的阶段。因为对程序运行期没用影响。
准备
准备阶段是正式为类变量(static)分配内存并设置类变量初始值的阶段,这些内存都将在方法区中分配。但是如果类字段的字段属性表中存在ConstantValue属性,那在准备阶段变量值就会初始化为ConstantValue属性指定的值。
public static final int value = 168;
编译时Javac将会为value生成ConstantValue属性,在准备阶段虚拟机就会根据ConstantValue的设置将value赋值为168基本数据类型的零值
数据类型 零值 int 0 long 0L short (short)0 char ‘\u0000’ byte (byte)0 boolean false float 0.0f double 0.0d reference null
解析
解析阶段是虚拟机将常量池中的符号引用转化为直接引用的过程。
符号引用以一组符号来描述所引用的目标,符号可以是任何形式的字面量,只要使用时能无歧义地定位到目标即可。符号引用与虚拟机实现的内存布局无关,引用的目标并不一定已经加载到了内存中。
符号引用属于编译原理的概念,包括三类常量:
- 类和接口的全限定名;
- 字段的名称和描述符;
- 方法的名称和描述符;
在Class文件中以CONSTANT_Class_info、CONSTANT_Fieldref_info、CONSTANT_Methodref_info等类型的常量出现。- 直接引用可以是直接指向目标的指针、相对偏移量或是一个能间接定位到目标的句柄。直接引用是与虚拟机实现的内存布局相关的,同一个符号引用在不同虚拟机实例上翻译出来的直接引用一般不会相同。如果有了直接引用,那说明引用的目标必定已经存在于内存之中了。
虚拟机规范中并未规定解析阶段发生的具体时间,只要求了在执行new,anewarray,multianewarray,checkcast,getfield,putfield,getstatic,putstatic,instanceof,invokedynamic,invokeinterface,invokespecial,invokestatic,invokevirtual,ldc,ldc_w这16个用于操作符号引用的字节码指令之前,先对它们所使用的符号引用进行解析。所以虚拟机实现可以根据需要来判断到底是在类被加载器加载时就对常量池中的符号引用进行解析(初始化之前),还是等到一个符号引用将要被使用前才去解析它(初始化之后)。
对同一个符号引用进行多次解析请求时很常见的事情,除invokedynamic指令(运行时解析)以外,虚拟机实现可以对第一次解析的结果进行缓存(在运行时常量池中记录直接引用,并把常量标示为已解析状态),从而避免解析动作重复进行。
解析动作主要针对7类符号引用进行:
- 类或接口
- 字段
- 类方法
- 接口方法
- 方法类型
- 方法句柄
- 调用点限定符
分别对应于常量池的
- CONSTANT_Class_info
- CONSTANT_Fieldref_info
- CONSTANT_Methodref_info
- CONSTANT_InterfaceMethodref_info
- CONSTANT_MethodType_info
- CONSTANT_MethodHandle_info
- ONSTANT_InvokeDynamic_info。
下面讲解前4种符号引用的解析过程:
类或接口的解析
假设当前代码所处的类为D,需要将一个从未解析过的符号引用N解析为一个类或接口C的直接引用:
- 如果C不是一个数组类型,虚拟机将会把代表C的全限定名传递给D的类加载器去加载这个类。
- 如果C是一个数组类型,并且数组的元素类型为对象(N的描述符类似[Ljava.lang.Integer),将会加载数组 元素类型(java.lang.Integer),接着由虚拟机生成一个代表此数组维度和元素的数组对象。
- 如果以上过程没有发生异常,则C在虚拟机中已经成为了一个有效的类和接口了,之后还要进行的是符号引用验证,确认D是否具有对C的访问权限,如果没有,将抛出java.lang.IllegalAccessError异常。
字段解析
对字段表中的class_index项中索引的CONSTANT_Class_info符号引用进行解析,也就是字段所属的类或接口的符号引用。用C表示这个字段所属的类或接口。
- 如果C本身就包含了简单名称和字段描述符都与目标相匹配的字段,则返回这个字段的直接引用。
- 否则,如果C实现了接口,则会按照继承关系从下往上递归搜索各个接口和他的父接口,如果接口中包含了简单名称和字段描述符都与目标相匹配的字段,则返回这个字段的直接引用。
- 否则,如果C不是java.lang.Object类型的话,将会按照继承关系从下往上递归的搜索其父类,如果在父类中包含了简单名称和字段描述符都与目标相匹配的字段,则返回这个字段的直接引用。
- 否则,查找失败,抛出java.lang.NoSuchFieldError异常。
如果查找过程中成功返回了引用,将会对这个字段进行权限验证,如果发现不具备对字段的访问权限,将抛出java.lang.IllegalAccessError异常。
类方法解析
对类方法表中的class_index项中索引的CONSTANT_Class_info符号引用进行解析,也就是方法所属的类的符号引用。用C表示这个字段所属的类或接口。
- 类方法和接口方法符号引用的常量类型定义是分开的,如果在类方法表中发现class_index中索引的C是个接口,则抛出java.lang.IncompatibleClassChangeError。
- 在类C中查找是否有简单名称和描述符都与目标相匹配的方法,如果有则返回这个方法的直接引用。
- 否则,在C的父类中递归查找是否有简单名称和描述符都与目标相匹配的方法,如果有则返回这个方法的直接引用。
- 否则,在C实现的接口列表及它们的父接口中递归的查找是否有简单名称和描述符都与目标相匹配的方法,如果有说明C是个抽象类,查找结束,抛出java.lang.AbstractMethodError异常。
- 否则,查找失败,抛出java.lang.NoSuchMethodError异常。
如果查找返回了直接引用,将会对这个方法进行权限验证,如果发现不具备对这个方法的访问权限,则抛出java.lang.IllegalAccessError异常。
接口方法解析
对接口方法表中的class_index项中索引的CONSTANT_Class_info符号引用进行解析,也就是方法所属的接口的符号引用。用C表示这个字段所属的类或接口。
- 如果在接口方法表中发现class_index中索引的C是个类,则抛出java.lang.IncompatibleClassChangeError。
- 否则,在接口C中查找是否有简单名称和描述符都与目标相匹配的方法,如果有则返回这个方法的直接引用。
- 否则,在接口C的父接口中递归查找,知道java.lang.Object类(包括在内),看是否有简单名称和描述符都与目标相匹配的方法,如果有则返回这个方法的直接引用。
- 否则,查找失败,抛出java.lang.NoSuchMethodError。
由于 接口中的所有方法默认都是public的(接口中的字段默认都是public static final) ,所以不存在访问权限的问题。
初始化
初始化是类加载过程的最后一步,到了此阶段,才真正开始执行类中定义的Java程序代码。在准备阶段,类变量已经被赋过一次系统要求的初始值,而在初始化阶段,则是根据程序员通过程序指定的主观计划去初始化类变量和其他资源,或者可以从另一个角度来表达:初始化阶段是执行类构造器<clinit>()方法的过程。
<clinit>()方法在执行过程中一些可能影响程序运行行为的特点和细节:
- <clinit>()方法是由编译器自动收集类中的所有类变量的赋值动作和静态语句块(static{}块)中的语句合并产生的,编译器收集的顺序是由语句在源文件中出现的顺序决定的。静态语句块只能访问到定义在静态语句块之前的变量,定义在它之后的变量,在前面的静态语句块中可以赋值,但是不能访问。
- <clinit>()方法与实例构造器<init>()不同,不需要显示的调用父类构造器,虚拟机会保证在子类的<clinit>()方法执行之前,父类的<clinit>()已经执行完毕。
- <clinit>()方法对于类或接口来说不是必须的,如果一个类中没有静态语句块也没有对变量的赋值操作,那么编译器可以不为这个类生成<clinit>()方法。
- 执行接口的<clinit>()不需要先执行父接口的<clinit>()方法,只有当父接口中定义的变量被使用时,父接口才会被初始化。接口的实现类在初始化时也不会执行接口的<clinit>()方法。
- 虚拟机会保证一个类的<clinit>()方法在多线程环境中被正确的加锁和同步,如果多个线程同时去初始化一个类,则只会有一个线程去执行这个类的<clinit>()方法,其他线程需要阻塞等待。
类加载过程的总结
类加载过程可总结为:
通过类的全限定名获取到类的二进制字节流,然后基于二进制字节流对其进行验证(文件格式验证),验证通过后,字节流以虚拟机设计的数据结构存储到内存的方法区中,同时生成Class对象。之后的元数据验证,字节码验证,符号引用验证都是基于方法区的存储结构进行验证的。之后的准备阶段对类变量进行初始化,然后对符号引用进行解析,最后进行类的初始化<clinit>()
类加载器
虚拟机设计团队把类加载阶段中的“通过一个类的全限定名来获取描述此类的二进制字节流”这个动作放到Java虚拟机外部去实现,以便让应用程序自己决定如何去获取所需要的类。实现这个动作的代码模块称为“类加载器
”。
类与类加载器
类加载器虽然只用来加载类,但它在Java程序中起到的作用却远远不限于类加载阶段。每一个类加载器都拥有一个独立的类名称空间(任意一个类,都由加载它的类加载器和类本身一同确立其在Java虚拟机中的唯一性,即一个类,只要加载他们的类加载器不同,那这两个类就必定不相等)。
双亲委派模型
JVM提供的三种类加载器:
- 启动(Bootstrap)类加载器:引导类装入器是用本地代码实现的类装入器,它负责将 <JAVA_HOME>/lib下面的核心类库或-Xbootclasspath选项指定的jar包加载到内存中。由于引导类加载器涉及到虚拟机本地实现细节,开发者无法直接获取到启动类加载器的引用,所以不允许直接通过引用进行操作。
- 扩展(Extension)类加载器:扩展类加载器是由Sun的ExtClassLoader(sun.misc.Launcher$ExtClassLoader)实现的。它负责将<JAVA_HOME>/lib/ext或者由系统变量-Djava.ext.dir指定位置中的类库加载到内存中。开发者可以直接使用标准扩展类加载器。
- 应用程序(Application)类加载器:系统类加载器是由 Sun的 AppClassLoader(sun.misc.Launcher$AppClassLoader)实现的。它负责将系统类路径java -classpath或-Djava.class.path变量所指的目录下的类库加载到内存中。开发者可以直接使用系统类加载器。由于这个类加载器是ClassLoader中getSyatemClassLoader()方法的返回值,所以一般也称为系统类加载器。如果应用程序中没用自定义过类加载器,一般情况下这个就是程序中默认的类加载器。
应用程序中都是由这3种类加载器互相配合进行加载的,如果有必要,还可以加入自定义的类加载器。这些加载器之间的关系一般如下图所示:
上图中的类加载器之间的层次关系称为类加载器的双亲委派模型(Parents Delegation Model);
双亲委派模型要求除了顶层的启动类加载器外,其余的类加载器都应当有自己的父类加载器。类加载器之间的父子关系不是以继承(Inheritance)的关系实现的,而是使用组合(Composition)关系来复用父加载器的代码。
双亲委派模型的工作过程是:一个类加载器在收到加载类的请求时,首先将加载任务委托给父类加载器,依次递归,如果父类加载器可以完成类加载任务,就成功返回;只有父类加载器无法完成此加载任务时,才自己去加载。
破坏双亲委派模型
- 双亲委派模型第一次“被破坏”发生在JDK1.2之前,由于双亲委派模型在JDK1.2之后才被引入,而类加载器和抽象类java.lang.ClassLoader在JDK1.0时代就已经存在,面对已经实现的用户自定义类加载器代码,Java设计者引入双亲委派模型时做出了一些妥协,JDK1.2之后的java.lang.ClassLoader添加了一个新的protected方法findClass(),在此之前,用户继承java.lang.ClassLoader的唯一目的就是为了重写loadClass()方法。因为虚拟机在进行类加载时会调用加载器的私有方法loadClassInternal(),而这个方法的唯一逻辑就是去调用自己的loadClass()。在JDK1.2之后,不提倡用户去覆盖loadClass(),而应当把自己的类加载逻辑写到findClass()中,在loadClass()中如果父类加载器加载失败,则会调用自己的findClass()来完成加载,这样就可以保证新写出来的类加载器是符合双亲委派规则的。
- 双亲委派模型第二次“被破坏”是由这个模型自身的缺陷造成的。采用线程上下文类加载器(Thread Context ClassLoader)去解决基础类要调用用户代码的情况。例如:Java中所有涉及SPI的加载动作基本上都采用这种方式,JNDI、JDBC、JCE、JAXB、JBI等。这个类加载器可以通过java.lang.Thread类的setContextClassLoader()方法进行设值。
- 双亲委派模型第三次“被破坏”是由于用户对程序动态性的追求而导致的。如:代码热替换,模块热部署等。
这里的“被破坏”并不带有贬义的感情色彩。只要有足够的意义和理由,就可以去突破已有的原则。如OSGi中的类加载器。