2、编码问题
当提示'utf-8' codec can't decode byte 0xd0 in position 0: invalid continuation byte
的时候,意味着编码错误。
这个问题爬网页的时候也会遇到。原因是python的编码与爬下来的网页编码不一样,python读不懂,只能返回乱码。
解决办法是:
首先搞清楚python的默认编码
#获取系统默认编码:
import sys
print(())
返回utf-8
OK如果你爬取的网页的编码是utf-8,爬下来的结果就能正常显示。但把爬下来的数据存到csv文档,让python再次读取又是另一回事,因为csv文档用的未必是utf-8编码,这时候需要解码
import numpy as np
data_file=pd.read_csv('',encoding='gb2312') print (data_file[0:3])
encoding后面的内容,取决于csv文件的编码。