图解Dex文件结构及解析要点

时间:2021-07-17 17:17:18

Dex文件格式相当简单,看下图:

图解Dex文件结构及解析要点


上图是我从数据结构的角度画出来的Dex文件格式,每个数据结构在android源码dalvik/libdex目录下都有定义,关于上图有几点需要注意:

1. 图中所有以(encoded)标注的数据结构在文件中对应的数据都是经过Leb128编码的,详细的可以自己去查,编码规则:

  • 以字节为单位,按照小端规则排列
  • 每字节最高位为标志。如果最高位为1,表示有新字节,如果为0,表示字节序列结束
  • 依次将剩下7位组合,顺序左移7位,生成整数。
2. DexCode结构中的debugInfoOff指向的是程序的debug数据,其中的parametersSize一定和DexCode中的insSize相同,表示的是函数的参数个数,而parametersSize字段后面会跟每个参数的名字对应的stringIdx值,这里只是参数的名字,每个参数对应的类型可以从该DexMethodId所对应的DexProtoId::parametersOff中去查找,因为Java函数调用也有传参规则,所以这两遍记录的参数顺序是相同的。另外需要注意的是,dalvik中每个java函数都会使用特定个数的寄存器,dalvik规定java函数在调用的时候,参数是放在后面N个寄存器的,比如一个函数使用5个寄存器(v0-v4),它有2个参数,那么这两个参数分别放在v3和v4。可以对照Dex文件所对应的smali文件来验证。
另外还有一点需要注意的是,对于非static函数,在所有的参数前面还有一个隐藏的参数this,它并没有保存在dex文件的debug数据中,但还是为它保留的相应的寄存器,需要自己注意。
3. 对于debug数据中的opcode/value或address/line部分,address/line表示的是bytecode与源代码行号之间的对应关系,opcode/value表示的是bytecode地址与虚拟寄存器之间的对应关系。它们在dex文件中是交错存储的,那么怎么判断是opcode/value还是address/line呢?如果opcode >= 0 && opcode < 0x0a,那么就表示是opcode/value,否则的话opcode的值就是address/line的值。
将debug数据dump出来形成positions信息和locals信息,分别对应address/line和opcode/value数据。下面看一下dexdump工具关于这部分的输出:
      positions     : 
0x0000 line=21
0x0004 line=22
0x0018 line=24
0x001c line=27
0x0022 line=29
0x0024 line=30
0x0039 line=33
0x0044 line=39
0x0045 line=34
0x0046 line=36
0x0049 line=39
locals :
0x0022 - 0x0044 reg=1 info Landroid/content/pm/PackageInfo;
0x0024 - 0x0044 reg=4 sigs [Landroid/content/pm/Signature;
0x0046 - 0x004b reg=0 e Landroid/content/pm/PackageManager$NameNotFoundException;
0x001c - 0x004b reg=2 mgr Landroid/content/pm/PackageManager;
0x0004 - 0x004b reg=3 package_name Ljava/lang/String;
0x0000 - 0x004b reg=8 ctx Landroid/content/Context;

下面详细分析这两部分数据:
  • 对于address/line数据,dex文件中对应的数据并不是直接的address和line数值,而只是一个offset值,根据这个offset可以计算出address和line的值,需要一个公式去计算:
 
			int adjopcode = opcode - DBG_FIRST_SPECIAL;
address += adjopcode / DBG_LINE_RANGE;
line += DBG_LINE_BASE + (adjopcode % DBG_LINE_RANGE);
另外,在opcode为DBG_ADVANCE_LINE的时候,line的值需要用当前值去加上后面的value值(Leb128编码的)。
  • 对于opcode/value,根据opcode的不同类型,value中记录的了不同的内容,opcode的取值范围如下:
    /* debug info opcodes and constants */enum {    DBG_END_SEQUENCE         = 0x00,	/* Terminates a debug info sequence for a method. */    DBG_ADVANCE_PC           = 0x01,	/* Advances the program counter/address register without emitting a positions entry. */    DBG_ADVANCE_LINE         = 0x02,	/* Advances the line register without emitting a positions entry. */    DBG_START_LOCAL          = 0x03,	/* Introduces a local variable at the current address. */    DBG_START_LOCAL_EXTENDED = 0x04,	/* Introduces a local variable at the current address with a type signature specified. */    DBG_END_LOCAL            = 0x05,	/* Marks a currently-live local variable as out of scope at the current address. */    DBG_RESTART_LOCAL        = 0x06,	/* Re-introduces a local variable at the current address. The name and type are the same as the last local that was live in the specified register. */    DBG_SET_PROLOGUE_END     = 0x07,    DBG_SET_EPILOGUE_BEGIN   = 0x08,    DBG_SET_FILE             = 0x09,    DBG_FIRST_SPECIAL        = 0x0a,    DBG_LINE_BASE            = -4,    DBG_LINE_RANGE           = 15,};

具体值的意义如下:

    • 0x00 (DBG_END_SEQUENCE), 表示debug信息的结束
    • 0x01 (DBG_ADVANCE_PC), data为一个正整数, 表示将address += data;
    • 0x02 (DBG_ADVANCE_LINE), data为一个正整数,表示line += data;
    • 0x03 (DBG_START_LOCAL), 0x04(DBG_START_LOCAL_EXTENDED) , 表示开始一个新的寄存器信息;
    • 0x05 (DBG_END_LOCAL), 表示结束一个寄存器信息;
    • 0x06 (DBG_RESTART_LOCAL), 表示重新开始一个寄存器信息;
    • 其他值(0x07~0x0a) 忽略。data为空。

dex文件中这部分数据的具体格式如下图:

图解Dex文件结构及解析要点

上图的reg表示的是虚拟寄存器号。address/line数据与opcode/value数据是交错存储的,图中为了说明opcode/value数据故意将address/line数据给滤掉了,写程序的时候还是要根据条件判断是哪种数据的。

上面提到的debug信息中的address和line数值,对于每个函数的debug信息,它们都是从0值开始的,每次根据opcode进行叠加。

上面图中对于每种opcode后面存储value是什么都描述的很清楚了,这里不再多说了,单独说下面几个:

  • DBG_START_LOCAL,DBG_START_LOCAL_EXTENDED:这两个opcode表示一个新的寄存器信息的开始,同时意味者老的寄存器信息的结束。opcode后续的数据,依次是:reg的索引,对应local变量的name的string index,对应的local变量的类型的type index,对应local变量的签名的string index(仅opcode==DBG_START_LOCAL_EXTENDED时)。reg的索引表明当前处理的是哪个寄存器。它意味着,此reg之前所对应local变量的范围已经结束,同时reg对应的新的变量范围已经开始,即当前 address值是reg之前对应local变量的endAddress,是新变量的startAddress。
  • DBG_END_LOCAL, 后续数据为reg的索引,表示对应的reg变量范围结束,即当前address值是reg对应变量的endAddress
  • DBG_RESTART_LOCAL 后续数据为reg的索引,表示重新设定reg对应变量的范围开始,即当前address值为reg对应变量的startAddress。

对Dex文件格式的介绍就暂时到这里吧,具体函数内部代码的指令解码和Annotations相关的内容就先不介绍了,以后研究研究再说。其实单纯只看上面的内容还是比较抽象,虽说我个人觉得我画的图已经非常详细了,哈哈。推荐大家去看dexdump的源码,在Android系统源码中有,非常简单。

我自己练手写了个dump Dex文件信息的小程序,纯粹个人练手,无注释无设计无Review无错误处理,只有简单自测,毫不讲究的工程版本,仅供参考,地址:https://github.com/beyond702/DexFileParser.git


下面分享两个个人觉得还不错的Dex文件格式相关的链接:

1. 通过dexdump来学习DEX文件格式

2. 从Android运行时出发,打造我们的脱壳神器