ARM汇编之立即数的快速判断方法
2014-11-30 北京海淀区 张俊浩
在ARM汇编的数据处理指令中经常会使用到常数,而ARM汇编中规定使用的常数必须是立即数。
在讨论什么是立即数,为什么有立即数,如何快速判断立即数之前,我们先来弄明白一个问题:什么不是立即数。
汇编指令是对数据(指令、数据)对象的操作,很关键的一个问题我们如何寻找我们的操作对象?汇编指令是一门关于寻址的艺术。ARM有九种寻址方式:1.寄存器寻址2.立即寻址3.寄存器移位寻址4.寄存器间接寻址5.基址寻址6.多寄存器寻址7.堆栈寻址8.块拷贝寻址9.相对寻址。 九中寻址方式都是再告诉我们如何寻找我们的操作对象,其中立即数寻址相对于其他寻址方式有什么不同?
为了理解ARM指令是如何实现对数据对象操作,我们需要知道ARM指令的机器码格式。(熟悉的可以直接跳到如何快速判断合法立即数)(ARM指令的典型编码格式如下:)
ARM指令语法格式如下:
opcode{<cond>} {s} rd, rn, <opcode2>
各个部分解释如下:
* cond(bit[31:28]):指令的条件码助记符,默认是al(无条件执行)
*type(bit[27:32]):指令码类型,根据其编码的不同,所代表的类型:00:数据处理指令及杂类Load/Store指令;01:Load/Store指令;10:批量Load/Store指令及分支指令;11:协处理指令与软中断指令
*X(bit[25]) :第二操作数类型标志码。(X=0表示第二操作数是移位寄存器,X=1表示第二操作数是立即数)
* opcode(bit[24:21]) :指令助记符,如mov
* S(bit[20]): 指令的执行是否影响CPSR(当前程序状态寄存器)的值(S:state)
* Rn(bit[19:16]): 包含第一个操作数的寄存器编码(Register Num)
* Rd(bit[15:12]): 目标寄存器编码(Register Destination)
* opcode2(bit[11:0]): 第二操作数
ARM指令的第二操作数用法比较灵活,有如下几种情况。
* 立即数
* 寄存器
* 寄存器移位
ARM指令里有两个操作数Rn,opcode2和一个目的寄存器Rd(用于存放操作结果),Rn为包含第一个操作数的寄存器地址,opcode2有三种形式:立即数方式、寄存器方式、寄存器移位方式,其中寄存器和寄存器位移方式也都是存储的寄存器地址所以要通过寄存器间接获得数据对象,也就是非立即,而立即数形式不同,指令中opcode2数据域不是地址而是数据本身,所以叫立即数。也就是说其它寻值方式最终操作的数据对象是放在Rn或opcode2所指向的寄存器地址中的数据,显然立即数操作对象也需要根据地址寻找,但它所在的地址比较特殊,或者说它存储的位置比较特殊,因为它直接存储在指令opcode2中。
而opcode2只有12位,也就是说opcode2所表示的立即数有一定限制0-4095,为了进一步扩大12bit数据所能表示数的范围,ARM规定了数据的格式:也即
立即数是由一个8位的常数循环右移偶数位得到的,其中循环右移 的位数由一个4位2进制的两倍表示,公式如下:
immediate=immed_8<<(2*rotate_imm4) “<<”表示循环右移 简单的说一个常数如果可以由一个8位的常数循环移位偶数位得到,那么就是立即数。
为什么会有立即数这样的规定呢?这是由于所有的ARM指令是精简指令集,指令长度固定都是32位,对于ARM数据处理指令自然也是一样。数据处理指令大致可包含3类,数据传送指令、数据算术逻辑运算指令和数据比较指令。在一条ARM数据处理指令中,除了要包含处理的数据值外,还要标识ARM命令名称,控制位,寄存器等其他信息。这样在一条ARM数据处理指令中,能用于表示要处理的数据值的位数只能小于32位。
ARM在指令格式中设定,只能用指令机器码32位中的低12位来表示要操作的常数。ARM处理器是按32位来处理数据的,ARM处理器处理的数据是32位,如果简单的用这12位来表示,显然范围太小了,为了扩展到32位,因此使用了构造的方法,在12位中用8位表示基本数据值,用4位表示位移值,通过用8位基本数据值往右循环移动4位位移值*2次,来表示要操作的常数。这里要强调最终的循环次数是4位位移值乘以2得到的,所以得到的最终循环次数肯定是一个偶数,为什么要乘以2呢,实质还是因为范围不够,4位表示位移次数,最大才15次,加上8位数据还是不够32位,这样只能通过ALU的内部结构设计将4位位移次数乘以2,这样就能用12位表示32位常数了。
通过循环偶数位得的到操作数,扩大了操作数的范围,但也带来了问题,并不是每个数据都能通过8位基本数据循环移动偶数为得到,如果你在ARM数据处理指令中使用的操作数,不是立即数,比如MOV R1,#0x12345678,编译器就会报错,所以我们在使用前必须进行判断,这也是很多ARM相关求职笔试中常考的一道题目。
那怎样怎么快速判断一个数是否是立即数?对于简单的数字我们可以直接判断,比如小于255的数字肯定是立即数。对相对复杂的数字进行判断就需要先把它转换为2进制形式,然后根据定义进行判断了。我这里总结了个比较快速的方法:(简而言之,就是利用立即数的生成方法,迅速逆推到合法的8位常熟)
1、把数据转换成二进制形式,从低位到高位写成4位1组的形式,最高位一组不够四位的,在最高位前面补0。
2、数1的个数,如果大于8个肯定不是立即数,如果小于等于8进行下面步骤。
3、如果数据中间有连续的大于等于24个0,循环左移4的倍数,使高位全为0。
4、找到最高位的1,去掉前面最大偶数个0。
5、找到最低位的1,去掉后面最大偶数个0。
6、数剩下的位数,如果小于等于8位,那么这个数就是立即数,反之就不是立即数。
针对可能现的情况,举5个典型例子:
(1)0x4FF (2)0x122 (3)0x234 (4)0xF000000F (5)0x8000007F
例1: 0x4FF
第一步:0100 1111 1111
第二步:其中1的个数是9个,大于8个,判定不是立即数
例2: 0x122
第一步: 0001 0010 0010
第二步: 其中1的个数4个,小于8,继续
第三步: 其中没有连续大于等于24个0,继续
第四部: xx01 0010 0010 (最高位前面有3个0,最大偶数2,去掉2个0)
第五步: xx10 0011 0010 (最低位后面只有1个0,最大偶数0)
第六部: 剩下10 0011 0010 共10位,大于8,判定0x122不是立即数
例3: 0x234
第一步: 0010 0011 0100
第二步: 其中1的个数4个,小于8,继续
第三步: 其中没有连续大于等于24个0,继续
第四部: xx10 0011 0100
第五步: xx10 0011 01xx
第六部: 剩下10 0011 01 共8位,等于8,判定0x234是立即数
例4: 0xF000000F
第一步: 1111 0000 0000 0000 0000 0000 0000 1111
第二步: 其中1的个数8个,没有大于8,继续
第三步: 其中有连续24个0,循环左移4位,使高位全为0
0000 0000 0000 0000 0000 0000 0000 1111 1111
第四部: xxxx xxxx xxxx xxxx xxxx xxxx xxxx 1111 1111
第五步: xxxx xxxx xxxx xxxx xxxx xxxx xxxx 1111 1111
第六部: 剩下1111 1111共8位,等于8,判定0xF000000F是立即数
例5: 0x8000007F
第一步: 1000 0000 0000 0000 0000 0000 0111 1111
第二步: 其中1的个数8个,没有大于8,继续
第三步: 其中有连续24个0,循环左移4位,使高位全为0
0000 0000 0000 0000 0000 0000 0111 1111 1000
第四部: xxxx xxxx xxxx xxxx xxxx xxxx 0111 1111 10xx
第五步: xxxx xxxx xxxx xxxx xxxx xxxx 0111 1111 10xx
第六部: 剩下0111 1111 10共10位,等于8,判定0x7000008F是立即数
问题还没有结束,我们在ARM汇编中如何规避立即数这个问题呢,其实可以使用ARM汇编LDR伪指令,例如直接把MOV指令变为, LDR R1,=0x12345678这样编译器就不会报错了。但这种方法也有弊端会增加开销和影响执行效率。同时ARM汇编中还有有效数的概念,比如 MOV R1,#0xFFFFFFFF 指令中 0xFFFFFFFF 不是立即数,但是是有效数,编译器最自动把原指令变换为 MVN R1,#0,也不会报错。有效数判定:原数是立即数或者原数反码是立即数。
希望对大家有帮助。