8.抓取西刺网站(代理ip网站)

时间:2021-10-23 20:42:06

需求分析

  • 使用单一ip抓取网页过程中,经常碰到IP被封的情况;现需要获取一批代理IP进行网页抓取;
  • 目前找到一个叫”西刺”的网站,可以提供免费代理IP,领导要求对上面的IP进行爬取,以供日后使用;

分析网站结构

  • 首页
    • 各分类IP列表连接(国内高匿代理等)
    • IP列表(多页)
    • 具体IP获取(查看页面源码-分析html结构编写scrapy)
      8.抓取西刺网站(代理ip网站)
    • 注意:
      1. 匿名:若代理服务器是匿名时,当访问国外的网站时候,国外网站是看不到我们的初始ip的,当然还有一些透明的代理,当访问一些网站时候,他们是可以看到我们的初始ip的
      2. 验证时间:代理ip在某一刻可能是可以使用的,但下一秒或下一分钟可能就不可用了,所以在使用前,应该对其进行可用性验证

存储方式分析

  1. 文本文件;
  2. csv文件;
  3. json文件;
  4. jsonlines文件(每一行是一个json字符串);
  5. 数据库
  6. 云存储

代码结构规划

  • 使用scrapy(功能强大-使用简便)
    抓取进阶
    对西刺网站的抓取