查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码

在所有IT项目中，汉字字符编码带来的问题是一个不小的工作量，经常导致乱码的发生。快速查询任意汉字的编码能够更快的定位错误。糖果云库新增了汉字字符集库，可查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码，库的链接为：

http://www.tgyun.cc/lib/bigtang_汉字字符集

查询任意汉字的Unicode,UTF8,GBK编码

GB2312编码范围：A1A1－FEFE，其中汉字编码范围：B0A1-F7FE。
GB2312编码是第一个汉字编码国家标准，由中国国家标准总局1980年发布，1981年5月1日开始使用。GB2312编码共收录汉字6763个，其中一级汉字3755个，二级汉字3008个。同时，GB2312编码收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GBK编码范围：8140－FEFE，汉字编码范围见第二节：码位分配及顺序。
GBK编码，是对GB2312编码的扩展，因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案，其编码范围：8140－FEFE，剔除xx7F码位，共23940个码位。共收录汉字和图形符号21886个，其中汉字（包括部首和构件）21003个，图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布，这一版的GBK规范为1.0版。

Unicode也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。Unicode的学名是”Universal Multiple-Octet Coded Character Set”，简称为UCS。UCS可以看作是”Unicode Character Set”的缩写。

UCS有两种格式：UCS-2和UCS-4。顾名思义，UCS-2就是用两个字节编码，UCS-4就是用4个字节（实际上只用了31位，最高位必须为0）编码。
UCS-2有2^16=65536个码位，常说的Unicode编码指的是UCS-2的编码，它又有两种表示方法：
UTF-8就是以8位为单元对UCS进行编码。UTF-16以16位为单元对UCS进行编码。

秒客网

查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码

相关文章