简单理解信息在计算机中的表示

信息是一个很宽泛的概念，说大了是与物质和能量鼎立的自然界三要素，这里仅仅涉及到计算机中的信息；

众所周知，对计算机自身而言，所有信息都是0/1二进制形式；

作为JavaEE/Android程序员，在开发过程中有时会遇到字符编码，进制转换这样的基础问题，虽然依靠经验或者网络搜索能很快实现功能，但每次都感觉对基本概念理解得不是很透彻，不如把现有的理解记录下来，以备后用；

信息在计算机中大致分为控制信息和数据信息；

控制信息是计算机系统内部运转用到的控制命令，例如读写命令，中断信号，片选信号，复位信号，就绪信号等；当然都是二进制表示；

数据信息指计算机可运算、可存储、可传输、可采集、可输出的各种数据；可分为数值数据，文本数据（字符，字串），多媒体数据（图像，音频，视频），二进制数据（可执行文件等）；

计算机信息的表示跟信息的处理，传输，存储，输入/输出一样，是计算机系统最基本的功能之一；

计算机中的信息表示可分为硬件系统可直接表示的信息，和软件系统可表示的信息；后者如数据结构，数据库表结构，XML/Json结构等等；

这里，只讨论计算机硬件系统对信息的表示；

位，Bit，Binary digit的缩写，是计算机中信息表示的最小单位；跟电子计算机的“电子”有关，高低电平；

字节，Byte, 8Bit, 可表示一个英文字符ASCII码；跟计算机的发明国美利坚所用语言有关；

定点数，小数点位置固定不变；定点小数的小数点紧跟符号位之后；定点整数小数点在有效数值部分之后；

浮点数，小数点位置可以浮动；尾数，阶码，底数；尾数位数越多，所表示数值的密度越大，精度越高；阶码位数越多，所表示数值的范围越大；

无符号数，全部二进制位均表示数值位；

有符号数，最高位被用来表示符号位；

机器数，一个数的二进制表示形式，最高位表示符号；

真值，机器数代表的真正数值；

原码，符号位加上真值的绝对值；

反码，正数的反码与其原码相同，负数的反码是对其原码逐位取反，符号位除外；

补码，正数的补码与其原码相同，负数的补码是在其反码的末位加1；

在计算机中，数值一律采用补码表示；

补码设计目的:

-使符号位能与有效值部分一起参加运算（自动溢出）,简化运算规则；

-使减法运算转换为加法运算（同余，模数，A-B 等于 A+B的补码）,简化计算机中运算器的线路设计；

溢出，计算得出的数值超出了整数类型可以表示的数值范围；

进制，进制主要包含基数和位权两个因素；计算机常用的是二进制，八进制，十六进制；

N进制转换成十进制，按权求和；

十进制转换N进制，整数部分-除N取余，小数部分-乘N取整；

一般可借助二进制或十进制做中间转换；

具体的转换原理和算法及程序实现在另外的文章再做介绍；

（todo 补码运算和浮点数运算）

字符编码和字符集：

ASCII-American Standard Code for Information Interchange. 1bit+7bit; 英文字符编码，老美出品，第一个bit为0，可表示128个字符；扩展集第一个bit为1，加起来

表示256个字符；

这对于非英语国家特别是亚洲国家的文字表示是远远不够啊，于是各国开始扩展自己的字符集；各自扩展的结果就是互不兼容；同一个二进制串在不同语言国家表示不同字符；

于是出现了伟大的万国码Unicode,可统一表示世界上所有国家的文字； Unicode仅仅给出了字符的编码值，这些值在计算机中具体怎么表示是由UTF来实现的；

具体有：UTF-8/UTF-16/UTF-32;

UTF-8用可变长度（1-6）字节表示Unicode值，UTF-16用2字节或4字节表示Unicode值；UTF-32用4字节表示Unicode值；

既然是可变多字节表示，为了避免歧义，就要指明字节的长度和顺序(BOM)；

UTF-8 encoding scheme:

for 1 byte unicode character: the first bit is 0, the rest 7 bits are the unicode value of the character;

for n byte unicode character: the first n bits of the first byte are 1, and the n+1 bit is 0, the first 2 bits of the rest bytes are 10, and all the rest bits are the

unicode value of the character;

Unicode符号范围 | UTF-8编码方式

(十六进制) |（二进制）

------------------------------------------------------------------

0000 0000-0000 007F | 0xxxxxxx

0000 0080-0000 07FF | 110xxxxx 10xxxxxx

0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

其它字符编码还有：

UCS-Universal Character Set: UCS-2(16bit), UCS-4(32bit),

EBCDIC-Extended Binary Coded Decimal Interchange Code:8bit.

ISO 8859: 8bit,

GB2312:16bit, 94区*94位, 简体中文.

BIG5: 16bit, 繁体中文.

关于big-endian(FEFF)和little-endian(FFFE):

big-endian: the higher(most significant) byte stored in the lower memory address.

little-endian: the lower(least signaficant) byte stored in the lower memory address.

BOM-Byte Order Mark,ZERO WIDTH NO-BREAK APACE,FFFE,

（todo 多媒体信息表示，图形，图像，动画，音频，视频，虚拟现实）

秒客网

简单理解信息在计算机中的表示

相关文章