记录微博爬虫遇到问题

时间:2024-03-28 12:28:19

1.封ip

爬取免费ip做IP池,scrapy中间件检查response状态,ip失效后从ip池拿一条新ip使用

2.爬到的微博不全

记录微博爬虫遇到问题

weibo.cn搜索显示的数据总共有31860778条微博,但只爬到178w条

记录微博爬虫遇到问题记录微博爬虫遇到问题

 

20190501有280w条,但显示1只有00页,一页10条一天只能爬到1000条

从微博建立2009.8到2019.5约3500天,按每天平均50页计算约有175w条,与爬到的数量差不多

改进

weibo.com,可以按小时搜索

记录微博爬虫遇到问题

搜索5月4日10时所有狗的微博,筛选条件全部默认

记录微博爬虫遇到问题记录微博爬虫遇到问题

记录微博爬虫遇到问题

总共50页,每页20条

第一条时间是截止时间11:00

最后一条时间是10:46,数据还是不全,但每天可以爬到历史数据上限有50*20*24=24000,比微博.cn的1000要多很多

url地址

https://s.weibo.com/weibo/\
%25E4%25B9%25B018%25E4%25BB%25B6%25E8%25A1%25A3%25E6%259C%258D%25E6%2597%2585%25E6%25B8%25B8%25E5%2590%258E%25E8%25A6%2581%25E9%2580%2580%25E8%25B4%25A7\
?q=%E7%8B%97\
&typeall=1&suball=1\
&timescope=custom:2019-05-04-10:2019-05-04-11&Refer=g&page=50

 第二段两次url编码,解码两次结果:买18件衣服旅游后要退货,是搜索的默认关键词,没用

第三段是关键词,解码后是狗

第四段是类型和包含,这两个字段通过不同组合可以获取比默认全部几乎多一倍的数据,也可以不用

第五段筛选时间,高级搜索,页数

 

修改weibo.cn搜索筛选条件,获取更多搜索链接

修改spider改爬weibo.com,获取weibo.com搜索链接