C/C++中浮点数格式学习——以IEEE75432位单精度为例

时间:2022-09-28 03:01:52

C/C++中浮点数格式学习——以IEEE75432位单精度为例

这是浮点数的通常表示形式,在IEEE754中,单精度浮点数有如下形式:

位单精度

个比特存储。

位长

至23
偏正值(实际的指数大小+127)

至0位编号(从右边开始为0)

S为符号位,Exp为指数字,Fraction为有效数字。
指数部分即使用所谓的偏正值形式表示,偏正值为实际的指数大小与一个固定值(32位的情况是127)的和。采用这种方式表示的目的是简化比较。因为,指数的值可能为正也可能为负,如果采用补码表示的话,全体符号位S和Exp自身的符号位将导致不能简单的进行大小比较。正因为如此,指数部分通常采用一个无符号的正数值存储。单精度的指数部分是−126~+127加上偏移值127,指数值的大小从1~254(0和255是特殊值)。浮点小数计算时,指数值减去偏正值将是实际的指数大小。(当指数为0的时候,用非规约数表示,这样做的理由在于,所有的非归约数都比归约数更加接近0,非规约形式的浮点数的指数值是同种情况下规约形式浮点数的指数值再加1。)

注意通常情况下,23位尾数部分前边自动省略了一个整数部分1,也就是说 num = -1^S * 2^(Exp+127) * (1.xxxxxxx……)    其中xxxx表示尾数部分。

此外有一些特别的约定:

单精度浮点数各种极值情况:

或1 .

这里边比较值得一提的,一个是NaN的设置,还有一个是指数为0情况下几种数字的关系。

1. 在NaN中,尾数必须要非零。

2. 中间大小的非归约数的二倍正好是最小的归约数,同时也是最大的非规约数;因此,在对浮点数进行乘二操作时,可以依照如下代码:

  1. unsigned float_twice(unsigned uf) {  
  2.     unsigned expn = (uf >> 23) & 0xFF;  
  3.     unsigned sign = uf & 0x80000000;  
  4.     unsigned frac = uf & 0x007FFFFF;  
  5.     if (expn == 255 || (expn == 0 && frac == 0)) return uf;  
  6.     if (expn) {  
  7.         expn++;  
  8.     } else 
  9.         frac <<= 1;  
  10.     return (sign) | (expn << 23) | (frac);  
  11. }  

    首先检测是否为-0;然后看如果不是特殊数字的话,就将指数自增;如果是特殊数字(需要考虑的特殊数字只有指数是0的情况下需要单独进行考虑),对于最大的非规约数,则要增加指数并改变自身(因为此时由非归约数转化为了归约数),对于其他情形,则只需要左移一位,如果发生了进位,则此时正好变为规约表示,前面省略了一个1;如果没发生进位,则代表尾数部分放大二倍,而整个数字就只有尾数部分。

    在需要进行舍尾操作时,采取四舍六入五六双的Bankers' Round规则。