什么是Unicode？什么UTF8、UNF16、UNF32？二者之间有什么关系？

什么是Unicode？

Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。Unicode通常用两个字节表示一个字符，原有的英文编码从单字节变成双字节，只需要把高字节全部填为0就可以。

Unicode 兼容于 ASCII 字符并被大多数程序所支持，前128个 Unicode 码同 ASCII 码具有同样的字节值；Unicode 字符从 U+0020 到 U+007E 等同与 ASCII 码的 0x20 到 0x7E，不同于支持拉丁字母的7位 ASCII。Unicode 对每个字符进行16位值的编码设置，它允许几万个字符，例如 Unicode 2.0 版包含 38,885 个字符，它也可以进行扩展，如 UTF-16 允许用16位字符组合为一百万或更多的字符，UTF 将编码转换为真实的二进制位。Unicode 完全兼容于国际标准 ISO/IEC 10646-1; 1993，它是 ISO 10646 的一个子集，并支持用两个八进制数的 ISO UCS-2（Universal Character Set）。

什么UTF8、UNF16、UNF32？

8 位 Unicode 转换格式（UTF-8）是一种用于编码各种字符的相对较新的代码约定。它是字符标识的标准，也是各种编程语言和设备（包括计算机和移动设备）的参考。UTF-8 协议有助于标准化字母，数字和其他字符的显示。UTF-8 也称为 RFC 2279。
在许多情况下，UTF-8 取代了一种名为美国信息交换标准码（ASCII）的旧约定。ASCII 处理英语语言文本所需的所有字符，但 UTF-8 为不使用英语或罗马字母的其他语言处理更多不同的符号集。UTF-8 被认为是与 ASCII 向后兼容的。

UTF-16是Unicode字符编码五层次模型的第三层：字符编码表（Character Encoding Form，也称为 “storage format”）的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数（即码元）的序列，用于数据存储或传递。Unicode字符的码位，需要1个或者2个16位长的码元来表示，因此这是一个变长表示。UTF-16是Unicode的其中一个使用方式。 UTF是 Unicode TransferFormat，即把Unicode转做某种格式的意思。
它定义于ISO/IEC 10646-1的附录Q，而RFC2781也定义了相似的做法。在Unicode基本多文种平面定义的字符（无论是拉丁字母、汉字或其他文字或符号），一律使用2字节储存。而在辅助平面定义的字符，会以代理对（surrogate pair）的形式，以两个2字节的值来储存。
UTF-16比起UTF-8，好处在于大部分字符都以固定长度的字节 (2字节) 储存，但UTF-16却无法兼容于ASCII编码。

UTF-32 (或 UCS-4)是一种将Unicode字符编码的协定，对每一个Unicode码位使用恰好32位元。其它的Unicode transformation formats则使用不定长度编码。因为UTF-32对每个字符都使用4字节，就空间而言，是非常没有效率的。特别地，非基本多文种平面的字符在大部分文件中通常很罕见，以致于它们通常被认为不存在占用空间大小的讨论，使得UTF-32通常会是其它编码的二到四倍。虽然每一个码位使用固定长定的字节看似方便，它并不如其它Unicode编码使用得广泛。

他们之间的联系是什么？

Unicode的最初目标，是用1个16位的编码来为超过65000个字符提供映射。但这还不够，它不能覆盖全部历史上的文字，也不能解决传输的问题(implantation head-ache’s)，尤其在那些基于网络的应用中。已有的软件必须做大量的工作来实现16位的数据。
因此，Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。正如名字所示，在UTF－8中，字符是以8位序列来编码的，用一个或几个字节来表示一个字符。这种方式的最大好处，是UTF－8保留了ASCII字符的编码做为它的一部分，例如，在UTF－8和ASCII中，“A”的编码都是0x41. UTF－16和UTF－32分别是Unicode的16位和32位编码方式。考虑到最初的目的，通常说的Unicode就是指UTF-16。

秒客网

什么是Unicode？什么UTF8、UNF16、UNF32？二者之间有什么关系？

相关文章

什么是Unicode？什么UTF8、UNF16、UNF32？ 二者之间有什么关系？

相关文章

什么是Unicode？什么UTF8、UNF16、UNF32？二者之间有什么关系？