file = open("e:\\111.htm",'r') #(111.htn是我保存的网页文件)
line = file.readline()
while line:
print(line)
line = file.readline()
我用上面的代码读取verycd,或者天涯这些utf-8的网站,提示UnicodeDecodeError: 'gbk' codec can't decode bytes in position 441-442: illegal multibyte sequence。
而网易,新浪这种gbk网站则可以正常输出。请问这是为什么呢?python不是默认utf-8编码么。
如何解决啊?
2 个解决方案
#1
看open的文档。除非是ascii的,否则打开文件的时候都应该明确指定编码。
#2
加个encode应该可以搞定吧
#1
看open的文档。除非是ascii的,否则打开文件的时候都应该明确指定编码。
#2
加个encode应该可以搞定吧