中文字符编码:GB2312、GBK、ANSI、Unicode、UTF-8

时间:2023-01-04 19:48:07

字符编码

windows notepad、windows notepad++和sublime text的字符编码显示区别:

windows notepad notepad++ sublime text
ANSI ANSI GB2312
Unicode UCS-2 LE BOM UTF-16LE
Unicode big endian UCS-2 BE BOM Detected UTF-16BE vs UTF-16BE with BOM with 100% confidence
UTF-8 UTF-8-BOM Detected UTF-8 vs UTF-8 with BOM with 100% confidence

UTF-8的一个特别的好处是它与ISO-8859-1完全兼容,可以表示世界上所有的字符,汉字通常用3个字节来表示。
GB2312的code page是CP20936。GBK的code page是CP936。GB18030支持的字符数更多。GB2312、GBK、GB18030均为双字节。

注意:GB2312、GBK、GB18030都是以ANSI格式存储的。

为什么ansi可以包含汉字?

在简体中文系统下,ANSI 编码代表 GB2312 编码,《信息交换用汉字编码字符集》
是由中国标准总局1980年发布,1981年5月1日开始实施的一套国家 汉字编码字符集 标准,标准号是GB 2312—1980。
它是计算机可以识别的编码,适用于汉字处理、汉字通信等系统之间的信息交换。 基本集共收入汉字6763个和非汉字图形字符682个。
整个字符集分成94个区,每区有94个位。每个区位上只有一个字符, 因此可用所在的区和位来对汉字进行编码。
来自百度知道


gbk与gb2312的区别?

最佳答案
GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码; GBK 是 GB2312的扩展,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名。

其他回答
总体说来,GBK包括所有的汉字,包括简体和繁体。而gb2312则只包括简体汉字。

gb2312,全称是GB2312-80《信息交换用汉字编码字符集
基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码,
Windows
95/98则以GBK为基本汉字编码、但兼容支持GB2312。GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
GBK:
汉字国标扩展码,基本上采用了原来GB2312-80所有的汉字及码位,并涵盖了原Unicode中所有的汉字20902,总共收录了883个符号,
21003个汉字及提供了1894个造字码位。 Microsoft简体版中文Windows
95就是以GBK为内码,又由于GBK同时也涵盖了Unicode所有CJK汉字,所以也可以和Unicode做一一对应。

来自百度知道


未完待续……

参考资料

中文字符集编码Unicode ,gb2312 , cp936 ,GBK,GB18030