为何我python3读取utf-8网站无法输出。gbk编码的则正常呢?

时间:2021-05-12 18:36:19
# -*- coding: utf-8 -*-
file = open("e:\\111.htm",'r')   #(111.htn是我保存的网页文件)
line = file.readline()
while line:
    print(line)
    line = file.readline()


我用上面的代码读取verycd,或者天涯这些utf-8的网站,提示UnicodeDecodeError: 'gbk' codec can't decode bytes in position 441-442: illegal multibyte sequence。
而网易,新浪这种gbk网站则可以正常输出。请问这是为什么呢?python不是默认utf-8编码么。
如何解决啊?

2 个解决方案

#1


看open的文档。除非是ascii的,否则打开文件的时候都应该明确指定编码。

#2


加个encode应该可以搞定吧

#1


看open的文档。除非是ascii的,否则打开文件的时候都应该明确指定编码。

#2


加个encode应该可以搞定吧