数据信息是计算机加工和处理的对象,数据信息的表示将直接影响到计算机的结构和性能。
1、数值数据的表示
1.1、真值与机器码
真值:采用正、负号加上二进制绝对值,如:+1001110。
机器码:将正、负分别用一位数码0和1来代替,连同数符一起数码化的数,如:01001110。
1.2、无符号数和带符号数
所谓无符号数,就是整个机器字长的全部二进制位均表示数值位,相当于数的绝对值
对于带符号数,最高位用来表示符号位,而不再表示数值位
1.3、 数的机器码表示
在计算机中根据运算方法的需要,机器数的表示方法往往会不相同。通常有原码、补码、反码和移码四种表示法
原码表示法是一种比较直观的机器数表示法。原码的最高位作为符号位,用“0”表示正号,用“1”表示负号,有效值部分用二进制的绝对值表示。
补码的符号为表示方法与原码相同,其数值部分的表示与数的正负有关:对于正数,数值部分与真值形式相同;对于负数,将真值的数值部分按位取反,且在最低位上加上1
反码表示法与补码表示法类似,对于正数,数值部分与真值形式相同;对于负数,将真值的数值部分按位取反
2、数的定点表示与浮点表示
2.1、定点表示法
在定点表示法中约定:所有数据的小数点位置固定不变。通常,把小数点固定在有效数为的最前面或者末尾,这样就形成了两类定点数:定点小数、定点整数
2.2、浮点表示法
浮点数表示法把字长分成阶码(表示指数)和尾数(表示数值)两部分,在大多数计算机中,尾数为纯小数,常用原码或补码表示,阶码为定点整数,常用移码或补码表示。
3、非数值数据的表示
3.1、字符的表示
计算机不但要处理数值领域的问题,而且要处理大量非数值领域的问题。例如,文字、字母、以及一些专用符号。这些信息也要写成二进制格式的代码存入计算机中才能对它们进行处理。国际上普遍采用标准化代码。如,ASCII码(American Standard Code For Information Interchange (美国国家信息交换标准字符)。ASCII码共有128个字符,其中95个编码(包括大小写各26个英文字母、10个数字符(0~9)、标点符号等),对应着计算机终端能敲入并可以显示的95个字符,打印机也可打印出这95个字符;另外的33个字符是被用来表示控制码,控制计算某些外围设备的工作特性和某些计算机软件运行情况。在计算机中,用一个字节表示一个ASCII码,低7位可以给出128个不同的字符和控制码,最高位可以作奇偶校验位,用来检查错误,也可以用于西文字符和汉字的区分标识。
从ASCII码表中可以看出,数字和英文字母都是按顺序排列的,只要知道其中一个的二进制代码,不要查表就可以推导出其它数字或字母的二进制代码,如0~9为30~39,A:41,B:42等。
3.2、字符串的存放
字符串是指一串连续的字符。通常,它们在存储器中占用一片连续的空间,每个字节存放一个字符代码,字符串的所有元素(字符)在物理上是邻接的,这种字符串的存储方法称为向量法。
3.3、汉字的表示
3.3.1、汉字的输入
输入码是为使输入设备能将汉字输入到计算机而专门编制的一种代码。目前已出现了数百种汉字输入方案,常见的有国际码、区位码、拼音码和五笔码等。
3.3.2、汉字在机内的表示
机内码是指机器内部处理和存储汉字的一种代码。常用的一种汉字机内码是用2个字节表示一个汉字的。它是在国标码的基础上,在每个字节的最高位置“1”作为汉字标记而组成的。
3.3.3、汉字的输出与汉字字库
显示器是采用图形方式来显示汉字的。每个汉字至少需要16×16的点阵才能显示,若要获得更美观的字形,需采用24×24、32×32、48×48等点阵来表示。一个实用的汉字系统大约占几十万到上百万个存储单元。
在机器中建立汉字库有两种方法。一种是将汉字库存放在软盘或硬盘中,每次需要时自动装载到计算机的内存中。用这种方法建立的汉字字库称为软字库。另一种是将汉字字库固化在ROM中(称汉卡),再插在PC机的扩展槽中,这样不占内存,只需要安排一个存储器空间给字库即可。这种方式建立的汉字库称为硬字库。
一般常用的汉字输入只有打印输出和显示输出两种形式。输出汉字的过程为:将输入码转换为机内码,然后用机内码检索字库,找到其字形点阵码,再输出汉字。