本文最早于 2014年3月14日于本人个人博客(http://mooowooo.tk)发表,现博客搬家至此,转载请注明出处。
最近常在 Windows 环境下使用 Python,但遇到一个很多时候的很常见的问题,字符集编码输出显示为乱码的问题。问题非常奇怪,具体复现如下:
# -*- coding: utf-8 -*-
import sys
print '测试1'
print u'测试2'
path1 = raw_input('输入1')
path2 = raw_input(u'输入2'.encode('gbk'))
为了方便起见,我就直接将所有代码贴在这里了。下面是这段代码在 Windows Console 里的运行结果。
如图,我们可以看到,第1、3行输出的内容为乱码,第2、4行输出的内容为正常的中文字符。那么为什么会出现这样的情况呢?我们针对代码中涉及到的两个函数
和
printrwa_input
来进行分析。
首先,我们在脚本的开头声明了编码格式为 utf-8
,按照常理来说,我们应该可以很坦然的在代码里使用中文编码了,但事实是不可以,依旧乱码。那么是不是因为脚本保存时候选择的字符编码不正确的呢?尝试将文本内容保存为编码 utf-8。运行结果依旧出错。这就让人很困惑了。不要担心,继续试验。
可以看到,在同样是中文环境下的 OS X 10.9.1 系统里,Terminal 给出的运行结果是正确无误的。
所以,我们推测,也许问题是出在 Windows Console 本身上面。再经过测试——很遗憾没有保留代码和截图——解释器抛出一次异常,提示大意是 Console 只支持ascii
编码。那么我们就清楚了,其实问题并不在文件保存时的字符编码上,也不在 Python 解释器上,而是出在 Windows Console 本身。
因为 Windows Console 默认支持的是 ascii
编码,那么自然遇到编码范围之外的字符就会默认解析为乱码了。那么下一条代码中,因为显式指定了以utf-8
编码格式输出,所以,Python 解释器自然就会根据要求,正确输出为中文字符。————其实这个过程还有待研究,到底是怎样让 Window Console 输出为中文的。不过暂时我们的问题是解决了。
那么继续看下一对语句。同样的,第一句输出为乱码,也是因为默认解析为 ascii
编码后导致找不到对应字符所造成的。那么第二句,我们的疑问是,为什么在前面显式添加u
表明以 utf-8
编码格式输出,为什么后面还必须调用 encode
方法呢?只加u
标记为 utf-8
输出是否可以呢?答案是必须调用 encode
方法,只加 u
标记是不可以的,依旧会输出为乱码。而且请注意,我们调用 encode
方法作用时,是以 gbk
编码格式为目标格式的,也就是说,其实这段文字最终是以gbk
编码格式输出到 Windows Console 上的。这就又是一个尚未解决的问题点。不过至少,我们也知道了当只显式的添加u
不管用时,试试 encode
方法也许可以解决问题。
下面来罗列一下尚未解决的问题,作为下一步学习的目标:
1- 为什么在声明脚本中所有字符以 utf-8
格式后,直接向 Windows Console 输出中文编码会显示乱码?
2- print
函数中,显式在中文字符前添加 u
强制以 utf-8
解析后输出正常,其中作用的机制到底是怎样的?Python 解释到底针对这段字符做了哪些处理才达到了这样的结果。
3- 为什么 raw_input
函数中只在中文字符前添加 u
作为强制解析依旧会输出乱码?
以上就是分析后依旧存在的问题,希望读到这篇博客的朋友,如有了解这方面相关知识的,不吝赐教。