为何我python3读取utf-8网站无法输出。gbk编码的则正常呢？

时间：2021-05-12 18:36:19

# -*- coding: utf-8 -*-
file = open("e:\\111.htm",'r')   #(111.htn是我保存的网页文件)
line = file.readline()
while line:
    print(line)
    line = file.readline()

我用上面的代码读取verycd，或者天涯这些utf-8的网站，提示UnicodeDecodeError: 'gbk' codec can't decode bytes in position 441-442: illegal multibyte sequence。
而网易，新浪这种gbk网站则可以正常输出。请问这是为什么呢？python不是默认utf-8编码么。
如何解决啊？

2 个解决方案

#1

看open的文档。除非是ascii的，否则打开文件的时候都应该明确指定编码。

#2

加个encode应该可以搞定吧

#1

看open的文档。除非是ascii的，否则打开文件的时候都应该明确指定编码。

#2

加个encode应该可以搞定吧

标签：python3 python utf-8 编码输出网站读取

为何我python3读取utf-8网站无法输出。gbk编码的则正常呢？



秒客网

为何我python3读取utf-8网站无法输出。gbk编码的则正常呢？

2 个解决方案

#1

#2

#1

#2

相关文章