Scrapy是什么

时间:2023-03-09 22:31:09
Scrapy是什么

1.Scrapy是蜘蛛爬虫框架,我们用蜘蛛来获取互联网上的各种信息,然后再对这些信息进行数据分析处理。

2.Scrapy的组成

  • 引擎:处理整个系统的数据流处理,出发事务
  • 调度器: 接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回
  • 下载器: 下载网页内容,并将网页内容返回给蜘蛛
  • 蜘蛛: 蜘蛛是主要干活的,用来制定特定域名或网页的解析规则
  • 项目管道: 清洗验证存储数据,页面被蜘蛛解析后,被发送到项目管道,并经过几个特定的次序处理数据。
  • 下载器中间件: 位于引擎和下载器之间,处理引擎与下载器之间的请求及响应
  • 蜘蛛中间件:位于引擎和蜘蛛之间,处理从引擎发送到调度的请求及响应

Scrapy是什么

3.工作机制

  • 爬取流程

首先从URL开始,Scheduler会将其交给Downloader进行下载,下载之后会交给Spider进行分析,Spider分析出来的结果有两种:一种是需要进一步抓取的链接,例如之前分析的“下一页”的链接,这些东西会被传回给Scheduler;另一种是需要保存的数据,他们被送到Item Pipeline那里,那是对数据进行后期处理(详细分析,过滤,存储)的地方。另外在数据流动的管道里还可以安装各种中间件,进行必要的处理。

  • 数据流程
  1. 引擎打开一个网站,找到处理该网站的Spider,并向Spider请求第一个要爬取的URL。
  2. 引擎从Spider中获取到第一个要爬取的URL并在调度器中以request进行调度。
  3. 引擎向调度器请求下一个要爬取的URL
  4. 调度器返回下一个要爬取的URL给引擎,引擎将URL通过下载中间件转发给下载器
  5. 下载完毕后,下载器生成一个该页面的response,并将其通过中间件返回给引擎
  6. 引擎从下载器中接收到response并通过Spider中间件发送给Spider处理
  7. Spider处理response并返回爬取到的Item及新的Request给引擎。
  8. 引擎将爬取到的Item给Item Pipeline,将Request给调度器
  9. 从第二步重复,直到调度器中没有更多的request,引擎关闭该网站。