32位单精度浮点数的IEEE表示法.doc-道客多多

资源描述

1、float 共计 32 位(4 字节)31 位是符号位，1 表示该数为负，0 反之3023 位，一共 8 位是指数位 (-128127)22 0 位，一共 23 位是尾数位，尾数的编码一般是原码和补码IEEE 标准从逻辑上用三元组S,E,M表示一个数 N,如下图所示：n,s,e,m 分别为 N,S,E,M 对应的实际数值,而 N,S,E,M 仅仅是一串二进制位。 S(sign)表示 N 的符号位。对应值 s 满足：n0 时， s=0; n0 时，s=1。 E(exponent)表示 N 的指数位，位于 S 和 M 之间的若干位。对应值 e 值也可正可负。 M(mantissa)表示 N 的尾数

2、位，恰好，它位于 N 末尾。 M 也叫有效数字位（sinificand）、系数位（coefficient）, 甚至被称作“ 小数”。IEEE 标准 754 规定了三种浮点数格式：单精度、双精度、扩展精度。前两者正好对应 C 语言里头的 float、double 或者 FORTRAN 里头的 real、double 精度类型。限于篇幅，本文仅介绍单精度、双精度浮点格式。单精度:N 共 32 位，其中 S 占 1 位，E 占 8 位，M 占 23 位。双精度:N 共 64 位，其中 S 占 1 位，E 占 11 位，M 占 52 位。值得注意的是，M 虽然是 23 位或者 52 位，但它们只是

3、表示小数点之后的二进制位数，也就是说，假定 M 为“010110011.”, 在二进制数值上其实是 “.010110011.”。而事实上，标准规定小数点左边还有一个隐含位，这个隐含位通常，哦不，应该说绝大多数情况下是1，那什么情况下是 0 呢？答案是 N 对应的 n 非常小的时候，比如小于 2(-126)(32 位单精度浮点数)。不要困惑怎么计算出来的，看到后面你就会明白。总之，隐含位算是赚来了一位精度,于是 M 对应的 m 最后结果可能是“m=1.010110011.” 或者“m=0.010110011.”四、计算 e、m首先将提到令初学者头疼的“规格化(normalized)”、“非规格化

4、(denormalized)”。噢，其实并没有这么难的，跟我来！掌握它以后你会发现一切都很优雅,更美妙的是，规格化、非规格化本身的概念几乎不怎么重要。请牢记这句话：规格化与否全看指数 E！下面分三种情况讨论 E，并分别计算 e 和 m:1、规格化：当 E 的二进制位不全为 0,也不全为 1 时，N 为规格化形式。此时 e 被解释为表示偏置（biased）形式的整数,e 值计算公式如下图所示：上图中，|E|表示 E 的二进制序列表示的整数值,例如 E 为“10000100“, 则|E|=132,e=132-127=5 。 k 则表示 E 的位数，对单精度来说，k=8,则 bias=127，对双精

5、度来说，k=11,则 bias=1023。此时 m 的计算公式如下图所示：标准规定此时小数点左侧的隐含位为 1,那么 m=|1.M|。如 M=“101“，则|1.M|=|1.101|=1.625,即 m=1.625(.101 = 2(-1)*1 + 2(-2)*0 + 2(-3)*1 = 0.625)2、非规格化：当 E 的二进制位全部为 0 时，N 为非规格化形式。此时 e，m 的计算都非常简单。注意，此时小数点左侧的隐含位为 0。为什么 e 会等于(1-bias) 而不是(-bias)，这主要是为规格化数值、非规格化数值之间的平滑过渡设计的。后文我们还会继续讨论。有了非规格化形式，我们就

6、可以表示 0 了。把符号位 S 值 1,其余所有位均置 0 后，我们得到了 -0.0; 同理，把所有位均置 0,则得到 +0.0。非规格化数还有其他用途，比如表示非常接近 0 的小数，而且这些小数均匀地接近 0,称为“逐渐下溢(gradually underflow)”属性。3、特殊数值：当 E 的二进制位全为 1 时为特殊数值。此时，若 M 的二进制位全为0，则 n 表示无穷大，若 S 为 1 则为负无穷大，若 S 为 0 则为正无穷大; 若 M 的二进制位不全为 0 时，表示 NaN(Not a Number)，表示这不是一个合法实数或无穷，或者该数未经初始化。五、范例仔细研读第四点后，

7、再回忆一下文章开头计算 n 的公式，你应该写出一个浮点编码的实际值 n 了吧？还不能吗？不急，我先给你示范一下。我们假定 N 是一个 8 位浮点数，其中，S 占 1 位，E 占 4 位，M 占 3 位。下面这张表罗列了 N 可能的正数形式，也包含了e、m 等值，请你对照着这张表，重温一下第四点，你会慢慢明白的。说实在的，这张表花了我不少功夫呢,幸好 TeX 画表格还算省事！这张表里头有很多有趣的地方，我提醒一下：看 N 列，从上到下，二进制位表示是均匀递增的，且增量都是一个最小二进制位。这不是偶然，正是巧妙设计的结果。观察最大的非规格数，发现恰好就是 M 全为 1, E 全为0 的情况。

8、于是我们求出最大的非规格数为：上面的公式中，h 为 M 的位数( 如范例中为 3)。注意，公式等号右边的第一项同时又是最小规格数的值（如范例中为 8/512 ）;第二项则正是最小非规格数的值( 如范例中为1/512)即该浮点数能表示的最小正数。看 m 列，规格化数都是 1+ x 的形式，这个 1 正是隐含位 1; 而非规格化数隐含位为 0, 所以没有 “1+“ 。看 n 列，非规格化数从上到下的增量都是 1/512, 且过渡到规格化数时，增量是平滑的，依旧是 1/512。这正是非规格化数中 e 等于(1-bias)而不是(-bias) 的缘故，也是巧妙设计的结果。再继续往下看，发现增量值逐渐增大。可见，浮点数的取值范围不是均匀的。

展开阅读全文