中文字符乱码问题简单解决 python

使用python2处理中文文本的时候，由于编码的问题，会出现乱码。
原因就是，python内部使用unicode进行字符的处理，但我们输入进去的字符编码可能是各式各样的。
因此需提前对输入文本进行decode操作。但是decode需要指定解码的类型比如，gbk，gb2312等，需要对文本进行判断。python中有内置模块可以查看chardet

import chardet

text = open(fileName,'r').read()

print chardet.detect(text)

然后根据查询的结果进行解码。
但遇到的问题就是，查询的结果是gb2312，但是解码还是出错。
这时我们要清楚一个问题，字符集的大小问题


GB2312，GBK，GB18030，是兼容的，包含的字符个数，以此更多，可以写成：

GB2312 < GBK < GB18030

这样，python中再遇到中文乱码问题时，可以通过字符集的大小进行实验。即：

1、设置gb2312为解码方式，如果解码失败;
text = text.decode('gb2312')
2、设置gbk为解码方式，如果解码失败；
text = text.decode('gbk')
3、设置gb18030为解码方式，如果失败；
text = text.decode('gb18030')
4、此方法无效，请google其他方法。

注意

在最后写入文件时，一定要用encode进行编码操作。
text = text.encode('utf8')

秒客网

中文字符乱码问题简单解决 python

注意

相关文章