IEEE 754标准 一篇就够了【必会】

时间:2024-11-10 13:25:53

首先要 知道 浮点数 补码 原码 反码。

目录

  • 定义:
  • 浮点数表示方法:
  • 为什么偏移量设置为127?
    • 1.范围
    • 2.精度

定义:

 浮点数的阶码一般使用移码来表示,并不牵扯到规格化。
 规格化特指尾数的规格化。尾数可能是补码或者原码。

浮点数表示方法:

请添加图片描述

关于阶码:在机器中表示一个浮点数时需要给出指数,这个指数用整数形式表示,这个整数叫做阶码,阶码指明了小数点在数据中的位置。对于任意一个二进制数N,可用N=S×2^P表示,其中S为尾数,P为阶码,2为阶码的底,P、S都用二进制数表示,S表示N的全部有效数字,P指明小数点的位置。当阶码为固定值时,数的这种表示法称为定点表示,这样的数称为“定点数”;当阶码为可变时,数的这种表示法称为浮点表示,这样的数称为“浮点数”。为什么要定义使用阶码? 因为浮点数的定义导致的,也是浮点数的表示需求产生的。浮点数是属于有理数中某特定子集的数的数字表示,在计算机中用以近似表示任意某个实数。具体的说,这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到,这种表示方法类似于基数为10的科学记数法。

为什么偏移量设置为127?

当阶码E 为全0且尾数M 也为全0时,表示的真值x 为零,结合符号位S 为0或1,有正零和负零之分。当阶码E 为全1且尾数M 为全0时,表示的真值x 为无穷大,结合符号位S
为0或1,也有+∞和-∞之分。这样在32位浮点数表示中,要除去E 用全0和全1(255)10表示零和无穷大的特殊情况,指数的偏移值不选128(10000000),而选127(01111111)。对于规格化浮点数,E 的范围变为1到254,真正的指数值e
则为-126到+127。因此32位浮点数表示的绝对值的范围是10-38~10^38
请添加图片描述
请添加图片描述

这样我们就知道了,其实我们的浮点数是这样表示在计算机当当中的,那么浮点数的范围呢?

float与double的范围和精度

1.范围

float和double的范围是由指数的位数来决定的。 float的指数位有8位,而double的指数位有11位,分布如下:

  • float:
    1bit(符号位) 8bits(指数位) 23bits(尾数位)

  • double:

    1bit(符号位) 11bits(指数位) 52bits(尾数位)

    于是,float的指数范围为-126到+127,而double的指数范围为-1022~+1023,并且指数位是按补码的形式来划分的。

    之所以是上面的范围:上面黑体字部分已经解释了,为了比较方便,我们将指数加偏移量改为正值,由于隐匿一位偏移导致偏移量整体-1
    其中负指数决定了浮点数所能表达的绝对值最小的非零数;而正指数决定了浮点数所能表达的绝对值最大的数,也即决定了浮点数的取值范围。
    float的范围为-2^127 ~ +2^127,也即-3.40E+38 ~ +3.40E+38;double的范围为-2^1023 ~ +2^1023,也即-1.79E+308 ~ +1.79E+308。

2.精度

float和double的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法来存储的,其整数部分始终是一个隐含着的“1”,由于它是不变的,故不能对精度造成影响。
  float:2^23 = 8388608,一共七位,这意味着最多能有7位有效数字,但绝对能保证的为6位,也即float的精度为6~7位有效数字; 
   double:2^52 = 4503599627370496,一共16位,同理,double的精度为15~16位。这样IEE754就算基本弄清了。