1.封ip
爬取免费ip做IP池,scrapy中间件检查response状态,ip失效后从ip池拿一条新ip使用
2.爬到的微博不全
weibo.cn搜索显示的数据总共有31860778条微博,但只爬到178w条
20190501有280w条,但显示1只有00页,一页10条一天只能爬到1000条
从微博建立2009.8到2019.5约3500天,按每天平均50页计算约有175w条,与爬到的数量差不多
改进
weibo.com,可以按小时搜索
搜索5月4日10时所有狗的微博,筛选条件全部默认
总共50页,每页20条
第一条时间是截止时间11:00
最后一条时间是10:46,数据还是不全,但每天可以爬到历史数据上限有50*20*24=24000,比微博.cn的1000要多很多
url地址
https://s.weibo.com/weibo/\
%25E4%25B9%25B018%25E4%25BB%25B6%25E8%25A1%25A3%25E6%259C%258D%25E6%2597%2585%25E6%25B8%25B8%25E5%2590%258E%25E8%25A6%2581%25E9%2580%2580%25E8%25B4%25A7\
?q=%E7%8B%97\
&typeall=1&suball=1\
×cope=custom:2019-05-04-10:2019-05-04-11&Refer=g&page=50
第二段两次url编码,解码两次结果:买18件衣服旅游后要退货,是搜索的默认关键词,没用
第三段是关键词,解码后是狗
第四段是类型和包含,这两个字段通过不同组合可以获取比默认全部几乎多一倍的数据,也可以不用
第五段筛选时间,高级搜索,页数
修改weibo.cn搜索筛选条件,获取更多搜索链接
修改spider改爬weibo.com,获取weibo.com搜索链接