一、字符编码
1、什么实字符编码:将人识别的字符转换成计算机能识别的01,而转换的过程或者规则就是字符编码表。
而这种字符编码表表示了一种对应关系。
2、常用的字符编码表有:ascii、unicode、GBK、Shift_JIS、Euc-kr
3、如何理解字符编码
①、电脑三大核心:cpu -内存-硬盘
②、软件及Python解释器读取文件过程:启动--读取--展示|解释执行
计算机只认识数字
很明显,我们平时在使用计算机时,用的都是人类能读懂的字符(用高级语言编程的结果也无非是在文件内写了一堆字符),如何能让计算机读懂人类的字符?
必须经过一个过程:
字符--------(翻译过程)------->可识别的机器码
注:unicode与utf-8采用的是一张unicode编码表,utf-8是unicode编码表体现方式,变长存储数据变长优点:(大量数据都是以英文存在,所以utf-8空间更小)传输速度更快
在python3中无论是中文还是英文都可以正常print出来。下面展示编码与解码过程
>>> aa = a.encode('utf-8')
>>> aa
b'\xe4\xb8\xad\xe6\x96\x87'
>>> a.encode('gbk')
b'\xd6\xd0\xce\xc4'
>>> aa.decode('utf-8')
'中文'
>>> type(a)
<class 'str'>
>>> type(aa)
<class 'bytes'>
>>> '\u4e2d\u6587'
'中文'
>>> print('\u4e2d\u6587')
中文
>>> b.encode('ascii')
b'English'
>>> b.encode('utf-8')
b'English'
>>> b.encode('gbk')