汉字占用字节
从一行代码显示说起
# fo.write("学习派森笔记\n")
str = fo.read(9)
读取的字符是: 学习派
str = fo.read(10)
读取的字符是: 学习派�
str = fo.read(11)
读取的字符是: 学习派�
str = fo.read(12)
读取的字符是: 学习派森
可以看出,utf-8 汉字占用3字节
扩展:
英文字母和中文汉字在不同字符集编码下的字节数
英文字母:
字节数 : 1;编码:GB2312
字节数 : 1;编码:GBK
字节数 : 1;编码:GB18030
字节数 : 1;编码:ISO-8859-1
字节数 : 1;编码:UTF-8
字节数 : 4;编码:UTF-16
字节数 : 2;编码:UTF-16BE
字节数 : 2;编码:UTF-16LE
中文汉字:
字节数 : 2;编码:GB2312
字节数 : 2;编码:GBK
字节数 : 2;编码:GB18030
字节数 : 1;编码:ISO-8859-1
字节数 : 3;编码:UTF-8
字节数 : 4;编码:UTF-16
字节数 : 2;编码:UTF-16BE
字节数 : 2;编码:UTF-16LE