CSAPP,即《深入理解计算机系统:程序员视角》第三版,是一本好书,但读起来确需要具备相当的基本功。而且,有的表述(中译文)还不太直白。
比如,第463页提到,(对于32位系统)为什么汇编器会将call指令中的引用的初始值设置为-4。其后解释语焉不详。结合文中对代码计算公式的展开:
*refptr = (unsigned) (ADDR(r.symbol) + *refptr - refaddr)
= (unsigned) (0x80483c8 + (-4) - 0x80483bb)
= (unsigned) (0x9)
依然一头雾水。
其实,这里只要反过来推算,就很好理解了。下图是重定向完成后的内存映象:
0x80483b4 .text
...
0x80483ba call 80483c8<swap> ; e8 09 00 00 00
▲
0x80483bb --↗
0x80483bf (下一条指令)
...
0x80483c8 swap()
...
有题如下:
已知:.text节重定位于0x80483b4,相应地call调用则位于0x80483ba,而swap()函数重定位于0x80483c8。
求:重定位后,call指令的操作码(即书中所谓“重定位引用”)应当是几?(亦即swap函数相对于call指令执行时PC的偏移是多少?)
首先说答案,swap函数相对于call指令执行时PC的偏移是0x9,即call指令的完整机器码是 e8 09 00 00 00。
为什么呢?因为当执行call指令时,PC值已是下一条指令的地址即0x80483bf。为了完成call调用,要把PC值加上call的操作数,结果作为新的PC值。也就是 0x80483bf + 0x9 = 0x80483c8,正好是swap()函数的地址。
接下来说说,call指令中的引用的初始值-4是做什么用的。我把前面的公式变形:
*refptr = (unsigned) (ADDR(r.symbol) + *refptr - refaddr)
= (unsigned) (ADDR(r.symbol) + (*refptr - refaddr))
= (unsigned) (0x80483c8 + (-4 - 0x80483bb))
= (unsigned) (0x80483c8 -0x80483bf)
= (unsigned) (0x9)
可以看到,-4就是为了从call指令中操作数本身的地址转换为下一指令的地址而设置的。对于32位机器来说,call指令长5字节,操作码1个字节,而操作数正好占4字节。call指令位于0x80483ba,操作数位于0x80483bb,再过4字节就正好是下一条指令的地址。
那为什么用-4而不是+4呢?其实很简单,这和链接程序采用的计算公式有关。