记录微博爬虫遇到问题

1.封ip

爬取免费ip做IP池，scrapy中间件检查response状态，ip失效后从ip池拿一条新ip使用

2.爬到的微博不全

记录微博爬虫遇到问题

weibo.cn搜索显示的数据总共有31860778条微博，但只爬到178w条

记录微博爬虫遇到问题

20190501有280w条，但显示1只有00页，一页10条一天只能爬到1000条

从微博建立2009.8到2019.5约3500天，按每天平均50页计算约有175w条，与爬到的数量差不多

改进

weibo.com，可以按小时搜索

记录微博爬虫遇到问题

搜索5月4日10时所有狗的微博，筛选条件全部默认

记录微博爬虫遇到问题

总共50页，每页20条

第一条时间是截止时间11：00

最后一条时间是10：46，数据还是不全，但每天可以爬到历史数据上限有50*20*24=24000，比微博.cn的1000要多很多

url地址

https://s.weibo.com/weibo/\
%25E4%25B9%25B018%25E4%25BB%25B6%25E8%25A1%25A3%25E6%259C%258D%25E6%2597%2585%25E6%25B8%25B8%25E5%2590%258E%25E8%25A6%2581%25E9%2580%2580%25E8%25B4%25A7\
?q=%E7%8B%97\
&typeall=1&suball=1\
&timescope=custom:2019-05-04-10:2019-05-04-11&Refer=g&page=50

第二段两次url编码，解码两次结果：买18件衣服旅游后要退货，是搜索的默认关键词，没用

第三段是关键词，解码后是狗

第四段是类型和包含，这两个字段通过不同组合可以获取比默认全部几乎多一倍的数据，也可以不用

第五段筛选时间，高级搜索，页数

修改weibo.cn搜索筛选条件，获取更多搜索链接

修改spider改爬weibo.com，获取weibo.com搜索链接

秒客网

记录微博爬虫遇到问题

1.封ip

2.爬到的微博不全

改进

相关文章