UCS-2和UTF8的四个新知识点和新的疑问

最初的unicode编码是固定长度的，16位，也就是2两个字节代表一个字符，这样一共可以表示65536个字符。显然，这样要表示各种语言中所有的字符是远远不够的。Unicode4.0规范考虑到了这种情况，定义了一组附加字符编码，附加字符编码采用2个16位来表示，这样最多可以定义1048576个附加字符，目前unicode4.0只定义了45960个附加字符。

Unicode只是一个编码规范，目前实际实现的unicode编码只要有三种：UTF-8,UCS-2和UTF-16，三种unicode字符集之间可以按照规范进行转换。

UTF-8

UTF-8是一种8位的unicode字符集，编码长度是可变的，并且是ASCII字符集的严格超集，也就是说ASCII中每个字符的编码在UTF-8中是完全一样的。UTF-8字符集中，一个字符可能是1个字节，2个字节，3个字节或者4个字节长。一般来说，欧洲的字母字符长度为1到2个字节，而亚洲的大部分字符则是3个字节，附加字符为4个字节长。

Unix平台中普遍支持UTF-8字符集，HTML和大多数浏览器也支持UTF-8，而window和java则支持UCS-2。

UTF-8的主要优点：

对于欧洲字母字符需要较少的存储空间。
容易从ASCII字符集向UTF-8迁移。

UCS-2

UCS-2是固定长度为16位的unicode字符集。每个字符都是2个字节，UCS-2只支持unicode3.0，所以不支持附加字符。

UCS-2的优点：

对于亚洲字符的存储空间需求比UTF-8少，因为每个字符都是2个字节。
处理字符的速度比UTF-8更快，因为是固定长度编码的。
对于windows和java的支持更好。

UTF-16

UTF-16也是一种16位编码的字符集。实际上，UTF-16就是UCS-2加上附加字符的支持，也就是符合unicode4.0规范的UCS-2。所以UTF-16是UCS-2的严格超集。

UTF-16中的字符，要么是2个字节，要么是4个字节表示的。UTF-16主要在windows2000以上版本使用。

UTF-16相对UTF-8的优点，和UCS-2是一致的。

Oracle从7.0开始提供对Unicode的支持。Oracle个版本的unicode字符集支主要有：

AL32UTF8

一种UTF-8编码的字符集，支持最新的unicode4.0标准。字符长度为1，2或者3个字节，附加字符则为4字节长。

UTF8

支持unicode3.0的UTF-8编码方式。由于附加字符是在unicode3.1中提出的，UTF8不支持附加字符。但是unicode3.0已经为附加字符预留了编码空间，所以即使在UTF8的数据库中插入附加字符，也是可以的，只是数据库会将该字符分隔成两部分，需要占6个字符的长度。所以，如果需要支持附加字符，那么建议将数据库的字符集切换为新的AL32UTF8。

UTF8可用于数据库字符集，也可用于国家字符集。

UTFE

UTFE是基于EBCDIC平台的unicode字符集，就像ASCII平台上的UTF8一样。不同的是，UTFE中，每个字符可能占1，2，3或者4个字节，而附加字符则需要2个4个字节，也就是8个字节来表示。

AL16UTF16

AL16UTF16是一种UTF-16编码的unicode字符集，在Oracle中用于国家字符集。

AL24UTFFSS

该字符集只支持unicode1.1规范，在Oracle7.2~8i版本中使用，目前已经淘汰。

参考：http://www.ningoo.net/html/2007/unicode_encode_in_oracle.html

---------------------------------------------------------------------------

总结：

1. windows使用UCS-2，但没想到UCS-2只支持unicode3.0，那Windows对附加字符是怎么处理的？（问题：什么是附加字符？）
2. 没想到UTF8对附加字符的处理也有限制，但是又留有余地。请问UTF-8有没有也在进化，从而可以直接表示附加字符？
3. 我不懂，为什么UTF-16为什么有可能是4个字节表示？这样岂不是名不符实？不是还有专门的UTF-32吗？
4. Unicode 4.0使用4个字节表示（其实是2个16位），这样可以定义1048576个附加字符。即Unicode不受65535的限制，但目前只定义了45960个附加字符（除了附加字符还有其它字符？那总共是多少？）。既然只使用了这么少的空间，为什么要使用4个字节表示呢？

秒客网

UCS-2和UTF8的四个新知识点和新的疑问

相关文章