概述:
Class文件是一组以8位字节为基础单位的二进制流,各项数据项目严格按照顺序紧凑地排列在Class文件之中,中间没有添加任何分隔符,如果是超过8位字节以上空间的数据项,则会按照高位在前的方式(Big-Endian)分割成若干个8位字节进行存储。
Class文件中包含了Java虚拟机指令集和符号表以及若干其他辅助信息。
Class文件格式只有两种数据类型:无符号数和表。
无符号数属于基本的数据类型,以u1,u2,u4,u8来分别代表1个字节,2个字节,4个字节和8个字节的无符号数;可用来描述数字,索引引用,数量值或者按照UTF-8编码构成的字符串值。
表是由多个无符号数或者其他表作为数据项构成的复合数据类型,所有表都习惯性地以“_info”结尾。表用于描述由层次关系的复合结构的数据,整个Class文件本质上就是一张表。
Class文件格式:
表现形式之横版:
魔数与Class文件的版本:
常量池:
- 1,类和接口的全限定名;
- 2,字段的名称和描述符;
- 3,方法的名称和描述符。
常量池的项目类型:
类型 |
标志 |
描述 |
CONSTANT_Utf8_info |
1 |
UTF-8编码字符串 |
CONSTANT_Integer_info |
3 |
整型字面量 |
CONSTANT_Float_info |
4 |
浮点型字面量 |
CONSTANT_Long_info |
5 |
长整型字面量 |
CONSTANT_Double_info |
6 |
双精度浮点型字面量 |
CONSTANT_Class_info |
7 |
类或接口的符号引用 |
CONSTANT_String_info |
8 |
字符串类型字面量 |
CONSTANT_Fieldref_info |
9 |
字段的符号引用 |
CONSTANT_Methodref_info |
10 |
类中方法的符号引用 |
CONSTANT_InterfaceMethodref_info |
11 |
接口中方法的符号引用 |
CONSTANT_NameAndType_info |
12 |
字段或方法的部分符号引用 |
CONSTANT_MethodHandle_info |
15 |
标识方法句柄 |
CONSTANT_MethodType_info |
16 |
标识方法类型 |
CONSTANT_InvokeDtnamic_info |
18 |
表示一个动态方法调用点 |
这14种常量类型各自有自己的结构,下面列出每个常量项的结构及含义
常量池中的14种常量项的结构总表:
特别说明:
CONSTANT_Fieldref_info ---------> 9 ---------> 字段的符号引用
类的字段都在class文件的字段表集合中存储
只有初始化值的字段才会在class文件中产生CONSTANT_Fieldref_info,即为此字段的符号引用。因为初始化值会产生相应的指令在<init>或<clinit>方法中,需要持有此字段的符号引用。
引用了其他类(包括父类)的字段时也会在class文件中产生CONSTANT_Fieldref_info,同理是需要持有字段的符号引用。
CONSTANT_Methodref_info ---------> 10 ---------> 类中方法的符号引用
同理,类的方法都在class文件的方法表集合中存储
只有被调用了的方法(本类的或其它类的)才会产生CONSTANT_Methodref_info,因为需要持有方法的符号引用。
访问标志:
标志名称 |
标志值 |
含义 |
ACC_PUBLIC |
0X0001 |
是否为public类型 |
ACC_FINAL |
0X0010 |
是否被声明为final,只有类可以设置 |
ACC_SUPER |
0X0020 |
是否允许使用invokespecial字节码指令的新语意,invokespecial指令的语意在JDK1.0.2发生过改变,为了区别这条指令使用哪种语意,JDK1.0.2之后编译 |
ACC_INTERFACE |
0X0200 |
标志这是一个接口 |
ACC_ABSTRACT |
0X0400 |
是否为abstract类型,对于接口或者抽象类来说,此标志值为真,其他类为假 |
ACC_SYNTHETIC |
0X1000 |
标志这个类并非由用户代码产生的 |
ACC_ANNOTATION |
0X2000 |
标志这是一个注解 |
ACC_ENUM |
0X4000 |
标志这是一个枚举 |
access_flags中一共有16个标志位可以使用,当前只定义了其中8个,没用使用到的标志位要求一律为0。 access_flages的值即为类满足上表中的值做或运算得到的值;
类索引、父类索引与接口索引集合:
字段表集合:
- 字段的作用域(public、private、protected修饰符)
- 实例变量还是类变量(static修饰符)
- 可变性(final)
- 并发可见性(volatile)
- 可否被序列化(transient)
- 字段数据类型(基本类型,对象,数组)
- 字段名称
字段表结构:
类型 |
名称 |
数量 |
u2 |
access_flags |
1 |
u2 |
name_index |
1 |
u2 |
descriptor_index |
1 |
u2 |
attribute_count |
1 |
attribute_info |
attributes |
attribute_count |
字段修饰符放在access_flags项目中,它与类中的access_flags项目非常相似,都是一个u2的数据类型,可以设值的标志位和含义见下表
字段访问标志
标志名称 |
标志值 |
含义 |
ACC_PUBLIC |
0X0001 |
字段是否public |
ACC_PRIVATE |
0X0002 |
字段是否private |
ACC_PROTECTED |
0X0004 |
字段是否protected |
ACC_STATIC |
0X0008 |
字段是否static |
ACC_FINAL |
0X0010 |
字段是否final |
ACC_VOLATILE |
0X0040 |
字段是否volatile |
ACC_TRANSIENT |
0X0080 |
字段是否transient |
ACC_SYNTHETIC |
0X0100 |
字段是否由编译器自动产生的 |
ACC_ENUM |
0X0400 |
字段是否enum |
跟随access_flags标志的是两项索引值:name_index和descriptor_index。它们都是对常量池的引用,分别代表字段的简单名称以及字段和方法的描述符。 描述符的作用是描述字段的数据类型、方法的参数列表(包括数量、类型及顺序)和返回值。根据描述符的规则,基本数据类型以及代表无返回值的void类型都用一个大写字符来表示,而对象类型则用字符L加对象的全限定名表示,见下表
描述符标识字符含义
标识字符 |
含义 |
B |
基本类型byte |
C |
基本类型char |
D |
基本类型double |
F |
基本类型float |
I |
基本类型int |
J |
基本类型long |
S |
基本类型short |
Z |
基本类型boolean |
V |
特殊类型void |
L |
对象类型。如Ljava/lang/Object |
对于数组类型,每一维度将使用一个前置的“[”字符来描述,如“String[][]”,会被记录为"[[Ljava/lang/String","int[]"被记录为“[I”。
描述符描述方法时,按照先参数列表,后返回值的顺序描述。参数列表按照参数的严格顺序放置一组小括号“()”内,如void inc()的描述符为“()V”,“viod main(String[] args)”的描述符为“([Ljava/lang/String;)V”,“int indexOf(char[] source,int sourceOffset,int sourceCount,char[] target,int targetOffset,int targetCount,int fromIndex)”的描述符为“([CII[CIII)I”。
字段表都包含的固定数据项到descriptor_index为止就结束了,不过在descriptor_index之后跟随着一个属性表集合用于存储一些额外的信息,字段都可以在属性表中描述零至多项的额外信息。有关属性表的介绍会在后边具体讲解。
字段表集合中不会列出从超类或者父类接口中继承而来的字段,但有可能列出原本Java代码之中不存在的字段。
方法表集合:
跟在字段表集合后的是方法计算器:用于标识有多少个方法;紧接着的就是放发表集合。
Class文件存储格式中对方法的描述与对字段的描述几乎采用完全一致的方式。
方法表的结构:
类型 |
名称 |
数量 |
u2 |
access_flags |
1 |
u2 |
name_index |
1 |
u2 |
descriptor_index |
1 |
u2 |
attribute_count |
1 |
attribute_info |
attributes |
attribute_count |
方法表所包含的数据项目的含义也和字段表集合的非常的类似,仅在访问标志和属性表集合的可选项中有所区别。由于volatile,transient关键字不能修饰方法,同时synchronized、native、strictfp和abstract关键字可以修饰方法。对于方法表,所有标志位及其取值如下
方法访问标志:
标志名称 |
标志值 |
含义 |
ACC_PUBLIC |
0X0001 |
方法是否public |
ACC_PRIVATE |
0X0002 |
方法是否private |
ACC_PROTECTED |
0X0004 |
方法是否protected |
ACC_STATIC |
0X0008 |
方法是否static |
ACC_FINAL |
0X0010 |
方法是否final |
ACC_SYNCHRONIZED |
0X0020 |
方法是否synchronized |
ACC_BRIDGE |
0X0040 |
方法是否由编译器产生的桥接方法 |
ACC_VARARGS |
0X0080 |
方法是否接受不定参数 |
ACC_NATIVE |
0X0100 |
方法是否为native |
ACC_ABSTRACT |
0X0400 |
方法是否为abstract |
ACC_STRICTFP |
0X0800 |
方法是否为strictfp |
ACC_SYNTHETIC |
0X1000 |
防范是否由编译器自动产生 |
通过访问标志、名称索引、描述符索引可清楚的表达方法的定义。那方法里面的代码去哪里了呢?方法里的Java代码经过编译器编译成字节码指令后,存放在方法属性表集合中属性表中;这个属性表的名称为“Code”。属性表是Class文件格式中最具扩展性的一种数据项目,将在下边讲解。
与字段表集合相对应的,如果父类方法在子类中没有被重写(Override),方法表集合中就不会出现来自父类的方法信息,但可能出现编译器自动添加的方法,最典型的便是类构造器“<clinit>”方法和实例构造器"<init>"方法。
在Java语言中,重载(Overload)一个方法,1、要与原方法具有相同的简单名称。2、要与原方法有不同的特征签名。Java代码的方法特征签名只包括方法名称、参数顺序及参数类型;而字节码的特征签名还包括方法返回值以及受查异常表。
属性表集合:
属性表(attribute_info)在前面的讲解中已经出现多次,在Class文件、字段表、方法表、属性表都可以携带自己的属性表集合,用于描述某些场景专有的信息。与Class文件中其他的数据项目要求严格的顺序、长度和内容不同,属性表集合的限制稍微宽松了一些,不再要求各个属性表具有严格顺序,并且只要不与已有属性名重复,任何人实现的编译器都可以想属性表中写入自己定义的属性信息,Java虚拟机运行时会忽略掉它不认识的属性。最新的《Java虚拟机规范(Java SE 7)》版中,属性项已经增加到21项。下边将介绍一些关键常用的属性。
虚拟机规范预定义的属性:
属性名称 |
使用位置 |
含义 |
Code |
方法表 |
Java代码编译成的字节码指令 |
ConstantValue |
字段表 |
final关键字定义的常量值 |
Deprecated |
类、方法表、字段表 |
被声明为deprecated的方法和字段 |
Exceptions |
方法表 |
方法抛出的异常 |
EnclosingMethod |
类文件 |
仅当一个类为局部类或者匿名类时才能拥有这个属性,这个属性用于标识这个类所在的外围方法 |
InnerClasses |
类文件 |
内部类列表 |
LineNumberTable |
Code属性 |
Java源码的行号与字节码指令的对应关系 |
LocalVariableTable |
Code属性 |
方法的局部变量描述 |
StackMapTable |
Code属性 |
JDK1.6中新增的属性,供新的类型检查验证器(Type Checker)检查和处理目标方法的局部变量和操作数栈所需要的类型是否匹配 |
Signature |
类、方法表、字段表 |
JDK1.5中新增的属性,这个属性用于支持泛型情况下的方法签名,在Java语言中,任何类、接口、初始化方法或成员的泛型签名如果包含了类型变量(Type Variables)或参数化类型(Parameterized Types),则Signature属性会为它记录泛型签名信息。由于Java的泛型采用擦除法实现,在为了避免类型信息被擦除后导致签名混乱,需要这个属性记录泛型中的相关信息 |
SourceFile |
类文件 |
记录源文件名称 |
SourceDebugExtension |
类文件 |
JDK1.6中新增的属性,SourceDebugExtension属性用于存储额外的调试信息。譬如在进行JSP文件调试时,无法通过Java堆栈来定位JSP文件的行号,JSR-45规范为这些非Java语言编写,却需要编译成字节码并运行在Java虚拟机中的程序提供了一个进行调试的标准机制,使用SourceDebugExtension属性就可以用于存储这个标准所新加入的调试信息 |
Synthetic |
类、方法表、字段表 |
标识方法或字段为编译器自动生成的 |
LocalVariableTypeTable |
类 |
JDK1.5中新增的属性,它使用特征签名代替描述符,是为了引入泛型语法之后能描述泛型参数化类型而添加 |
RuntimeVisibleAnnotations |
类、方法表、字段表 |
JDK1.5新增的属性,为动态注解提供支持。RuntimeVisibleAnnotations属性用于注明哪些注解是运行时(实际上运行时就是进行反射调用)可见的 |
RuntimeInvisibleAnnotations |
类、方法表、字段表 |
JDK1.5新增的属性,与RuntimeVisibleAnnotations属性作用刚好相反,用于指明哪些注解是运行时不可见的 |
RuntimeVisibleParameterAnnotations |
方法表 |
JDK1.5新增的属性,作用与RuntimeVisibleAnnotations属性类似,只不过作用对象为方法参数 |
RuntimeInvisibleParameterAnnotations |
方法表 |
JDK1.5新增的属性,作用与RuntimeInvisibleAnnotations属性类似,只不过作用对象为方法参数 |
AnnotationDefault |
方法表 |
JDK1.5新增的属性,用于记录注解类元素的默认值 |
BootstrapMethods |
类文件 |
JDK1.7中新增的属性,用于保存invokedynamic指令引用的引导方法限定符 |
对于每个属性,它的名称需要从常量池引用一个CONSTANT_Utf8_info类型的常量来表示,而属性值的结构则完全自定义的,只需要通过一个u4的长度属性去说明属性值所占用的位数即可。一个符合规则的属性表应该满足以下定义结构
属性表结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u1 |
info |
attribute_length |
attribute_name_index是指向CONSTANT_Utf8_info类型常量的索引,CONSTANT_Utf8_info类型常量记录着属性的名称;attribute_length标识属性值所占用的位数。
属性表集合之Code属性
Java程序方法体中的代码经过Javac编译处理后,最终变为字节码指令存储在Code属性中,Code属性出现在方法表的属性集合之中。但并非所有方法表都有Code属性,例如抽象类或接口。
Code属性表的结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
max_stack |
1 |
u2 |
max_locals |
1 |
u4 |
code_length |
1 |
u1 |
code |
code_length |
u2 |
exception_table_length |
1 |
exception_info |
exception_table |
exception_table_length |
u2 |
attribute_count |
|
attribute_info |
attributes |
attribute_count |
attribute_name_index所指向的CONSTANT_Utf8_info类型常量的值固定为“Code”。
异常表的结构:
类型 |
名称 |
数量 |
u2 |
start_pc |
1 |
u2 |
end_pc |
1 |
u2 |
handle_pc |
1 |
u2 |
catch_type |
1 |
这些字段的含义是如果当字节码在第start_pc行到end_pc行之间(不含第end_pc行)出现了类型为catch_type或其子类异常(catch_type为指向一个CONSTANT_Class_info型常量的索引),则转到第handler_pc行继续处理。当catch_type的值为0时,代表任意异常情况都需要转向到handler_pc处进行处理。
package org.fenixsoft.clazz;
public class TestClass {
public int inc() {
int x;
try{
x = 1;
return x;
}catch(Exception e){
x = 2;
return x;
}finally{
x = 3;
}
}
}
Code: Stack=1, Locals=5, Args_size=1
0: iconst_1 //try块中的x=1
1: istore_1
2: iload_1 //保存x到returnValue中,此时x=1
3: istore 4
5: iconst_3 //finaly块中的x=3
6: istore_1
7: iload 4 //将returnValue中的值放到栈顶,准备给ireturn返回
9: ireturn //返回方法的int元素(返回栈顶元素1)
10: astore_2 //给catch中定义的Exception e赋值,存储在Slot 2中
11: iconst_2 //catch块中的x=2
12: istore_1
13: iload_1 //保存x到returnValue中,此时x=2
14: istore 4
16: iconst_3 //finally块中的x=3
17: istore_1
18: iload 4 //将returnValue中的值放到栈顶,准备给ireturn返回
20: ireturn //返回方法的int元素(返回栈顶元素2)
21: astore_3 //如果出现了不属于Exception及其子类的异常才会走到这里
22: iconst_3 //finally块中的x=3
23: istore_1
24: aload_3 //将异常放置到栈顶
25: athrow //抛出异常
Exception table:
from to target type
5 10 Class java/lang/Exception //第0到第5行如果抛出Exception异常则跳转到第10行
5 21 any //第0到第5行如果抛出任何异常则跳转到第21行
16 21 any //第10到第16行如果抛出任何异常则跳转到第21行
编译器为这段Java源码生成了3条异常表记录,对应3条可能出现的代码执行路径。从Java代码的语义上讲,这3条执行路径分别为:
- 如果try语句块中出现属于Exception或其子类的异常,则转到catch语句块处理。
- 如果try语句块中出现不属于Exception或其子类的异常,则转到finally语句块处理。
- 如果catch语句块中出现任何异常,则转到finally语句块处理。
属性表集合之Exception属性
Exception属性表结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
number_of_exceptions |
1 |
u2 |
exception_index_table |
number_of_exceptions |
属性表集合之LineNumberTable属性
LineNumberTable属性表结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
line_number_table_length |
1 |
line_number_info |
line_number_table |
line_number_table_length |
属性表集合之LocalVariableTable属性
LocalVariableTable属性结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
local_varible_table_length |
1 |
local_variable_info |
local_variable_table |
local_varible_table_length |
local_variable_info项目代表了一个栈帧与源码中的局部变量的关联,结构见下表:
类型 |
名称 |
数量 |
u2 |
start_pc |
1 |
u2 |
length |
1 |
u2 |
name_index |
1 |
u2 |
descriptor_index |
1 |
u2 |
index |
1 |
属性表集合之SourceFile属性
sourceFile属性结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
sourcefile_index |
1 |
属性表集合之ConstantValue属性
ConstantValue属性结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
constantvalue_index |
1 |
属性表集合之InnerClasses属性
InnerClasses属性结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
number_of_classes |
1 |
inner_classes_info |
inner_classes |
number_of_classes |
类型 |
名称 |
数量 |
u2 |
inner_class_info_index |
1 |
u2 |
outer_class_info_index |
1 |
u2 |
inner_name_index |
1 |
u2 |
inner_class_access_flags |
1 |
属性表集合之Deprecated及Synthetic属性
属性表集合之StackMapTable属性
属性表集合之Signature属性
Signature属性的结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
signature_index |
1 |