关于python中的编码:unicode, utf-8, gb2312

时间:2022-03-21 20:21:54

计算机早期是只支持ASCII码的,经过long long的发展,出现了这些支持世界上各种语言字符的编码:unicode, utf-8, gb2312.

对于unicode, utf-8, gb2312,虽然都能表示各种字符,但是各种字符在各种编码方式下的码是不一样的。可以把utf-8, gb2312理解为unicode这种编码思想(支持各种字符)的各种实现。

 

python中的函数unicode(str, "UTF-8"),可以返回"UTF-8"编码的字符串str的unicode码,当然如果字符串不是"UTF-8"编码的,运行就会报错(如:UnicodeDecodeError: 'utf8' codec can't decode byte *** in position ***)。

相关的函数还有encode, decode,顾名思义,就是按照相应的参数类型进行编解码。

 

一些系统、开发环境都有默认的编码方式,如记事本和一些编辑器默认编码方式是ANSI,在这种方式下输入汉字,使用的是GB系列的编码方式,代码处理的时候需要注意~~