使用python2处理中文文本的时候,由于编码的问题,会出现乱码。
原因就是,python内部使用unicode进行字符的处理,但我们输入进去的字符编码可能是各式各样的。
因此需提前对输入文本进行decode操作。但是decode需要指定解码的类型比如,gbk,gb2312等,需要对文本进行判断。python中有内置模块可以查看chardet
import chardet
text = open(fileName,'r').read()
print chardet.detect(text)
然后根据查询的结果进行解码。
但遇到的问题就是,查询的结果是gb2312,但是解码还是出错。
这时我们要清楚一个问题,字符集的大小问题
GB2312,GBK,GB18030,是兼容的,包含的字符个数,以此更多,可以写成:
GB2312 < GBK < GB18030
这样,python中再遇到中文乱码问题时,可以通过字符集的大小进行实验。即:
1、设置gb2312为解码方式,如果解码失败;
text = text.decode('gb2312')
2、设置gbk为解码方式,如果解码失败;
text = text.decode('gbk')
3、设置gb18030为解码方式,如果失败;
text = text.decode('gb18030')
4、此方法无效,请google其他方法。
注意
在最后写入文件时,一定要用encode进行编码操作。
text = text.encode('utf8')