《深入理解java虚拟机》读书笔记-第八章虚拟机字节码执行引擎

时间:2022-12-29 13:11:01

一概述

本文属于《深入理解java虚拟机》读书笔记系列,执行引擎是java虚拟机的核心组成部分之一。在java虚拟机规范中制定了虚拟机字节码执行引擎的概念模型,执行引擎在执行JAVA代码的时候可以选择解释执行(通过解释器执行)和编译执行(通过即使编译器产生本地代码执行)两种选择。 我们知道,javac编译器完成了程序代码经过词法分析、语法分析到抽象语法树、再遍历语法树生成线性的字节码指令流的过程。而字节码文件再经过加载、验证、准备、解析、初始化等阶段才能被使用。字节码执行引擎正是执行了这样的过程  输入的是字节码文件,处理过程是字节码解析的等效过程,输出的是执行结果。

二 运行时帧栈结构

栈帧(Stack Frame)是用于支持虚拟机进行方法调用和方法执行的数据结构,它是虚拟机运行时数据区中的虚拟机栈(Virtual Machine Stack)的栈元素。栈帧存储了方法的局部变量表,操作数栈,动态连接和方法返回地址等信息。每一个方法调用的过程,就对应着一个栈帧在虚拟机栈中入栈到出栈的过程。 

一个线程中的方法调用链可能很长,很多方法都同时处于执行状态,对于执行引擎来说,活动线程中,只有栈顶的栈帧是有效的,成为Curent Stack Frame。 这个栈帧所关联的方法称为当前方法(Current Method)。执行引擎所运行的所有字节码指令都只针对当前栈帧进行操作。书上花了结构示意图,下面介绍栈帧具体内容:

2.1局部变量表

用于存放方法参数和方法内部定义的局部变量,在编译成CLASS文件时,就在方法的CODE属性的max_locals数据项中确定了该方法所需要分配的最大局部变量表的容量。

局部变量表的容量以变量槽(Variable Slot)为最小单位,虚拟机规范中并没有明确指出一个slot应占用的内存空间大小。

一个Slot可以存放一个32位以内的数据类型,这些类型有:boolean,byte,char,short,int,float,reference和returnAddress。returnAddress是为字节码指令jsr,jsr_w和ret服务的,指向下一条字节码的地址。 

对于64位数据,JVM会以高位在前的方式分配两个连续的Slot空间。

JAVA明确规定的64位数据只有long和double两种。reference可能是32也可能是64位

JVM通过索引定位的方式使用局部变量表,索引值的范围从0开始到局部变量表最大的SLOT数量。

在方法执行时,JVM使用局部变量表完成参数值到参数变量列表的传递过程。如果是实例方法,那么局部变量表的第0位索引的SLOT默认是用于传递方法所属对象实例的引用,在方法中可以通过“this"访问到这个隐含的参数。其余参数则按照参数表的顺序排列,参数表分配完毕后,再根据方法体内部定义的变量顺序和作用于分配其余SLOT。

局部变量表中的SLOT是可以重用的,如果当前字节码PC计数器的值已经超出了某个变量的作用域,那么这个变量对应的SLOT就可以交给其他变量使用。

注: 类变量有两次赋值的过程,一次在准备阶段,赋予系统初始值(比如int默认值为0,boolean默认值为false,object类型默认值为null等),另外一次在初始化阶段,赋予程序员定义的初始值。因此即使在初始化阶段程序员没有为类变量赋值也没用关系,类变量仍然具有一个确定的初始值。但是局部变量若是定义了但没有赋初始值是没法使用的,类加载将会失败,当然编译期就会提示错误。

2.2 操作数栈

是一个后入先出的栈(LIFO)。操作数栈的最大深度在编译时写入到Code属性的max_stacks数据项中。

操作数栈的每一个元素可以是任意JAVA数据类型,32位数据占栈容量为1,64位占栈容量为2. 

当一个方法开始执行时,这个方法的操作数栈是空的,在方法执行过程中,会有各种字节码指令向操作数栈中写入和提取内容。比如,加法的字节码指令iadd在运行时会将栈顶两个元素相加并出战,再将结果入栈。 

在编译器和校验阶段的保证下,操作数栈中元素的数据类型必须与字节码指令的序列严格匹配。

java虚拟机的解释执行引擎称为基于栈的执行引擎,其中所指的栈就是操作数栈。

  另外,在概念模型中,两个栈帧作为虚拟机栈的元素,相互之间是完全独立的,但是大多数虚拟机的实现里都会作一些优化处理,令两个栈帧出现一部分重叠。让下栈帧的部分操作数栈与上面栈帧的部*部变量表重叠在一起,这样在进行方法调用返回时就可以共用一部分数据,而无须进行额外的参数复制传递了。书上有个图,这块我有些不理解,不确定网上有人说的栈数据是共享的。

2.3 动态链接

每个栈帧都包含一个指向运行时常量池中该栈帧所属方法的引用,持有这个引用是为了支持方法调用过程中的动态连接。我们知道class文件的常量池中存有大量的符号引用,字节码中的方法调用指令就以常量池中指向方法的符号引用为参数。这些符号引用一部分会在类加载阶段或第一次使用的时候转化为直接引用,这种转化为称为静态解析,另外一部分将在每一次的运行期间转化为直接引用,这部分称为动态连接。

2.4方法返回地址

方法被执行后,有两种方式退出这个方法。第一种方法是执行引擎遇到任意一个方法的返回的字节码指令。另外一种退出方式是在方法执行过程中遇到了异常,并且这个异常并没有在方法体中得到处理。方法退出之后,需要返回到方法被调用的位置,程序才能继续执行,方法返回时需要在栈帧中保存一些信息,用以帮助它恢复它上层方法的执行状态。一般情况下,调用者的pc计数器的值可以作为返回地址,栈帧中很可能会保存这个计数器值,方法异常退出时,返回地址是要通过异常处理器表来确定,栈帧中一般不会保存这部分信息

方法退出的过程实际上等同于把当前栈帧出栈,所以可能需要执行这些操作:恢复上层方法的局部变量表和操作数栈,把返回值压入调用者栈的操作数栈中,调整pc计数器的值。

2.5附加信息

虚拟机规范允许具体的虚拟机实现增加一些规范里没有描述的信息到栈帧中,这部分信息取决于具体的虚拟机实现。

三方法调用

方法调用阶段的唯一任务就是 确定被调用方法的版本(即调用哪一个方法) ,暂时不涉及方法内部的具体运行过程。

3.1解析

所有方法调用中的目标方法在Class文件里面都是一个常量池中的符号引用。

在类加载的解析阶段,一部分符号引用会被转化为直接引用,这种解析成立的前提是:方法在程序真正运行之前就有一个可确定的调用版本,且这个方法的调用版本在运行时是不可改变的。符合这个条件的有静态方法和私有方法两大类。 

JVM提供了4条方法调用的字节码指令: 

  1. invokestatic:调用静态方法
  2. invokespecial:调用实例构造器<init>方法,私有方法和父类方法
  3. invokevirtual:调用所有的虚方法
  4. invokeinterface:调用接口方法,会在运行时再确定一个实现此接口的对象。
  5. invokedynamic:现在运行时动态解析出调用点限定符所引用的方法,然后再执行该方法。
只要能被invokestatic和invokespecial调用的方法,都可以在解析阶段进行转化。 除此以外(除静态方法,实例构造器,私有方法,父类方法以外)其他方法称为虚方法。 JAVA非虚方法除了invokestatic和invokespecial以外,还有一种就是final修饰的方法,因为该方法无法被覆盖,这种被final修饰的方法是用invokevirtual指令调用的。

3.2分派

分派调用可能是静态的也可能是动态的,根据分派依据的宗量数又可分为单分派和多分派。分派机制与java的多态机制关系密切。

   1.  静态分派 : 依赖静态类型来定位方法执行版本的分派动作,称为静态分派。静态分派的最典型的应 用就是方法重载。静态分派发生在编译阶段,因此确定静态分派的动作实际上不是由虚拟机来执行的

2.动态分派: 在运行期间根据实际类型来确定方法执行版本的分派调用过程称为动态分派。这跟多态性的另一个体现——重写有着很密切的关联。

3.单分派: 根据一个宗量对目标方法进行选择

4.多分派: 根据多于一个的总量对目标方法进行选择。

注:方法的接收者与方法的参数统称为方法的宗量。

(同时有重载和重写发生的情况) 根据之前方法调用可能生成的4种字节码,找到对应方法可能生成的字节码,再根据字节码解析过程进行判断。 首先进行静态分派,生成相应的字节码,在常量池中生成对应的方法符号引用,这个过程根据了两个宗量进行选择(接收者和参数),因此静态分派是多分派类型。 再进行动态分派,将符号引用变成直接引用时,只对方法的接收者进行选择,因此只有一个宗量,动态分派是单分派。 虚拟机动态分派的实现 由于动态分派是非常频繁的操作,因此在JVM具体实现中基于性能考虑,常常 做一些优化,最初那个用的“稳定优化”手段就是为类在方法去中建立一个虚方发表(vtable),于此对应,invokeinterface执行时也会用到接口方发表,itable。 虚方法表中存放着各个方法的实际入口地址,如果某个方法在子类中没有被重写,那么子类的虚方法表里的地址入口和父类相同方法的地址入口是一致的。如果子类重写了这个方法,子类方法表中的地址就会被替换为指向子类实现版本的入口地址。为了程序实现上的方百年,具有相同签名的方法,在父类、子类的虚方发表中都应当具有一样的索引序号,这样当类型变换时,仅需要变更要查找的方法表即可。方法表一般在类加载的连接阶段进行初始化,准备了类的变量初始值后,虚拟机会把该类的方法表也初始化完毕。

3.3动态语言支持

主要是介绍jdk1.7的支持。主要是methodhandle与inVokedynamic指令。从虚拟机角度理解与JAVA语言的角度去看与反射的区别。

四基于栈的字节码解释执行引擎

javac编译器完成了程序代码经过词法分析、语法分析到抽象语法树、再遍历语法树生成线性的字节码指令流的过程。

基于栈的指令集:

exg:iconst_1

     iconst_1

     iadd

     istore_0

基于寄存器的指令集:

exg:move eax,1

     add eax,1

基于栈的指令集与基于寄存器的指令集:

基于栈的指令集的优点是可移植性,寄存器有硬件直接提供,程序直接依赖这些硬件寄存器,则不可避免地要受到硬件的约束。栈架构的指令集还有其他优点(代码相对紧凑、编译器实现更加简单)。栈架构指令集的主要缺点是执行速度相对来说要慢一些。

书上8.4.3还给了一个例子来讲解解释器的执行过程,就是局部变量表跟操作数栈的一个交互过程。