【搬家】【Python】【Windows】Windows Console 中 Python 输出中文字符乱码的问题

本文最早于 2014年3月14日于本人个人博客(http://mooowooo.tk)发表，现博客搬家至此，转载请注明出处。

最近常在 Windows 环境下使用 Python，但遇到一个很多时候的很常见的问题，字符集编码输出显示为乱码的问题。问题非常奇怪，具体复现如下：

# -*- coding: utf-8 -*-

import sys

print '测试1'
print u'测试2'
path1 = raw_input('输入1')
path2 = raw_input(u'输入2'.encode('gbk'))

为了方便起见，我就直接将所有代码贴在这里了。下面是这段代码在 Windows Console 里的运行结果。

【搬家】【Python】【Windows】Windows Console 中 Python 输出中文字符乱码的问题

如图，我们可以看到，第1、3行输出的内容为乱码，第2、4行输出的内容为正常的中文字符。那么为什么会出现这样的情况呢？我们针对代码中涉及到的两个函数 print 和 rwa_input 来进行分析。

首先，我们在脚本的开头声明了编码格式为 utf-8 ，按照常理来说，我们应该可以很坦然的在代码里使用中文编码了，但事实是不可以，依旧乱码。那么是不是因为脚本保存时候选择的字符编码不正确的呢？尝试将文本内容保存为编码 utf-8。运行结果依旧出错。这就让人很困惑了。不要担心，继续试验。

同样的代码复制到 OS X 10.9.1 里，结果是怎样的呢？如下图：

【搬家】【Python】【Windows】Windows Console 中 Python 输出中文字符乱码的问题

可以看到，在同样是中文环境下的 OS X 10.9.1 系统里，Terminal 给出的运行结果是正确无误的。

所以，我们推测，也许问题是出在 Windows Console 本身上面。再经过测试——很遗憾没有保留代码和截图——解释器抛出一次异常，提示大意是 Console 只支持ascii 编码。那么我们就清楚了，其实问题并不在文件保存时的字符编码上，也不在 Python 解释器上，而是出在 Windows Console 本身。

因为 Windows Console 默认支持的是 ascii 编码，那么自然遇到编码范围之外的字符就会默认解析为乱码了。那么下一条代码中，因为显式指定了以utf-8 编码格式输出，所以，Python 解释器自然就会根据要求，正确输出为中文字符。————其实这个过程还有待研究，到底是怎样让 Window Console 输出为中文的。不过暂时我们的问题是解决了。

那么继续看下一对语句。同样的，第一句输出为乱码，也是因为默认解析为 ascii 编码后导致找不到对应字符所造成的。那么第二句，我们的疑问是，为什么在前面显式添加u 表明以 utf-8 编码格式输出，为什么后面还必须调用 encode 方法呢？只加u 标记为 utf-8 输出是否可以呢？答案是必须调用 encode 方法，只加 u 标记是不可以的，依旧会输出为乱码。而且请注意，我们调用 encode 方法作用时，是以 gbk 编码格式为目标格式的，也就是说，其实这段文字最终是以gbk 编码格式输出到 Windows Console 上的。这就又是一个尚未解决的问题点。不过至少，我们也知道了当只显式的添加u 不管用时，试试 encode 方法也许可以解决问题。

下面来罗列一下尚未解决的问题，作为下一步学习的目标：
1- 为什么在声明脚本中所有字符以 utf-8 格式后，直接向 Windows Console 输出中文编码会显示乱码？
2- print 函数中，显式在中文字符前添加 u 强制以 utf-8 解析后输出正常，其中作用的机制到底是怎样的？Python 解释到底针对这段字符做了哪些处理才达到了这样的结果。
3- 为什么 raw_input 函数中只在中文字符前添加 u 作为强制解析依旧会输出乱码？

以上就是分析后依旧存在的问题，希望读到这篇博客的朋友，如有了解这方面相关知识的，不吝赐教。

秒客网

【搬家】【Python】【Windows】Windows Console 中 Python 输出中文字符乱码的问题

相关文章