需求分析
- 使用单一ip抓取网页过程中,经常碰到IP被封的情况;现需要获取一批代理IP进行网页抓取;
- 目前找到一个叫”西刺”的网站,可以提供免费代理IP,领导要求对上面的IP进行爬取,以供日后使用;
分析网站结构
- 首页
- 各分类IP列表连接(国内高匿代理等)
- IP列表(多页)
- 具体IP获取(查看页面源码-分析html结构编写scrapy)
- 注意:
- 匿名:若代理服务器是匿名时,当访问国外的网站时候,国外网站是看不到我们的初始ip的,当然还有一些透明的代理,当访问一些网站时候,他们是可以看到我们的初始ip的
- 验证时间:代理ip在某一刻可能是可以使用的,但下一秒或下一分钟可能就不可用了,所以在使用前,应该对其进行可用性验证
存储方式分析
- 文本文件;
- csv文件;
- json文件;
- jsonlines文件(每一行是一个json字符串);
- 数据库
- 云存储
代码结构规划
- 使用scrapy(功能强大-使用简便)
抓取进阶
对西刺网站的抓取