Dex文件格式相当简单,看下图:
上图是我从数据结构的角度画出来的Dex文件格式,每个数据结构在android源码dalvik/libdex目录下都有定义,关于上图有几点需要注意:
1. 图中所有以(encoded)标注的数据结构在文件中对应的数据都是经过Leb128编码的,详细的可以自己去查,编码规则:
- 以字节为单位,按照小端规则排列
- 每字节最高位为标志。如果最高位为1,表示有新字节,如果为0,表示字节序列结束
- 依次将剩下7位组合,顺序左移7位,生成整数。
2. DexCode结构中的debugInfoOff指向的是程序的debug数据,其中的parametersSize一定和DexCode中的insSize相同,表示的是函数的参数个数,而parametersSize字段后面会跟每个参数的名字对应的stringIdx值,这里只是参数的名字,每个参数对应的类型可以从该DexMethodId所对应的DexProtoId::parametersOff中去查找,因为Java函数调用也有传参规则,所以这两遍记录的参数顺序是相同的。另外需要注意的是,dalvik中每个java函数都会使用特定个数的寄存器,dalvik规定java函数在调用的时候,参数是放在后面N个寄存器的,比如一个函数使用5个寄存器(v0-v4),它有2个参数,那么这两个参数分别放在v3和v4。可以对照Dex文件所对应的smali文件来验证。
3. 对于debug数据中的opcode/value或address/line部分,address/line表示的是bytecode与源代码行号之间的对应关系,opcode/value表示的是bytecode地址与虚拟寄存器之间的对应关系。它们在dex文件中是交错存储的,那么怎么判断是opcode/value还是address/line呢?如果opcode >= 0 && opcode < 0x0a,那么就表示是opcode/value,否则的话opcode的值就是address/line的值。
positions :
0x0000 line=21
0x0004 line=22
0x0018 line=24
0x001c line=27
0x0022 line=29
0x0024 line=30
0x0039 line=33
0x0044 line=39
0x0045 line=34
0x0046 line=36
0x0049 line=39
locals :
0x0022 - 0x0044 reg=1 info Landroid/content/pm/PackageInfo;
0x0024 - 0x0044 reg=4 sigs [Landroid/content/pm/Signature;
0x0046 - 0x004b reg=0 e Landroid/content/pm/PackageManager$NameNotFoundException;
0x001c - 0x004b reg=2 mgr Landroid/content/pm/PackageManager;
0x0004 - 0x004b reg=3 package_name Ljava/lang/String;
0x0000 - 0x004b reg=8 ctx Landroid/content/Context;
下面详细分析这两部分数据:
- 对于address/line数据,dex文件中对应的数据并不是直接的address和line数值,而只是一个offset值,根据这个offset可以计算出address和line的值,需要一个公式去计算:
int adjopcode = opcode - DBG_FIRST_SPECIAL;另外,在opcode为DBG_ADVANCE_LINE的时候,line的值需要用当前值去加上后面的value值(Leb128编码的)。
address += adjopcode / DBG_LINE_RANGE;
line += DBG_LINE_BASE + (adjopcode % DBG_LINE_RANGE);
- 对于opcode/value,根据opcode的不同类型,value中记录的了不同的内容,opcode的取值范围如下:
/* debug info opcodes and constants */enum { DBG_END_SEQUENCE = 0x00, /* Terminates a debug info sequence for a method. */ DBG_ADVANCE_PC = 0x01, /* Advances the program counter/address register without emitting a positions entry. */ DBG_ADVANCE_LINE = 0x02, /* Advances the line register without emitting a positions entry. */ DBG_START_LOCAL = 0x03, /* Introduces a local variable at the current address. */ DBG_START_LOCAL_EXTENDED = 0x04, /* Introduces a local variable at the current address with a type signature specified. */ DBG_END_LOCAL = 0x05, /* Marks a currently-live local variable as out of scope at the current address. */ DBG_RESTART_LOCAL = 0x06, /* Re-introduces a local variable at the current address. The name and type are the same as the last local that was live in the specified register. */ DBG_SET_PROLOGUE_END = 0x07, DBG_SET_EPILOGUE_BEGIN = 0x08, DBG_SET_FILE = 0x09, DBG_FIRST_SPECIAL = 0x0a, DBG_LINE_BASE = -4, DBG_LINE_RANGE = 15,};
具体值的意义如下:
-
- 0x00 (DBG_END_SEQUENCE), 表示debug信息的结束
- 0x01 (DBG_ADVANCE_PC), data为一个正整数, 表示将address += data;
- 0x02 (DBG_ADVANCE_LINE), data为一个正整数,表示line += data;
- 0x03 (DBG_START_LOCAL), 0x04(DBG_START_LOCAL_EXTENDED) , 表示开始一个新的寄存器信息;
- 0x05 (DBG_END_LOCAL), 表示结束一个寄存器信息;
- 0x06 (DBG_RESTART_LOCAL), 表示重新开始一个寄存器信息;
- 其他值(0x07~0x0a) 忽略。data为空。
dex文件中这部分数据的具体格式如下图:
上图的reg表示的是虚拟寄存器号。address/line数据与opcode/value数据是交错存储的,图中为了说明opcode/value数据故意将address/line数据给滤掉了,写程序的时候还是要根据条件判断是哪种数据的。
上面提到的debug信息中的address和line数值,对于每个函数的debug信息,它们都是从0值开始的,每次根据opcode进行叠加。
上面图中对于每种opcode后面存储value是什么都描述的很清楚了,这里不再多说了,单独说下面几个:
- DBG_START_LOCAL,DBG_START_LOCAL_EXTENDED:这两个opcode表示一个新的寄存器信息的开始,同时意味者老的寄存器信息的结束。opcode后续的数据,依次是:reg的索引,对应local变量的name的string index,对应的local变量的类型的type index,对应local变量的签名的string index(仅opcode==DBG_START_LOCAL_EXTENDED时)。reg的索引表明当前处理的是哪个寄存器。它意味着,此reg之前所对应local变量的范围已经结束,同时reg对应的新的变量范围已经开始,即当前 address值是reg之前对应local变量的endAddress,是新变量的startAddress。
- DBG_END_LOCAL, 后续数据为reg的索引,表示对应的reg变量范围结束,即当前address值是reg对应变量的endAddress
- DBG_RESTART_LOCAL 后续数据为reg的索引,表示重新设定reg对应变量的范围开始,即当前address值为reg对应变量的startAddress。
对Dex文件格式的介绍就暂时到这里吧,具体函数内部代码的指令解码和Annotations相关的内容就先不介绍了,以后研究研究再说。其实单纯只看上面的内容还是比较抽象,虽说我个人觉得我画的图已经非常详细了,哈哈。推荐大家去看dexdump的源码,在Android系统源码中有,非常简单。
我自己练手写了个dump Dex文件信息的小程序,纯粹个人练手,无注释无设计无Review无错误处理,只有简单自测,毫不讲究的工程版本,仅供参考,地址:https://github.com/beyond702/DexFileParser.git
下面分享两个个人觉得还不错的Dex文件格式相关的链接: