Scrapy 框架介绍

时间：2022-09-16 16:03:20

Scrapy 框架

Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

Scrap，是碎片的意思，这个Python的爬虫框架叫Scrapy。

Scrapy运行原理图

Scrapy 框架介绍

scrapy执行流程

一、引擎向spiders要url
二、引擎将要爬取的url给调度器
三、调度器会将url生成请求对象放到指定的队列中
四、从队列中出队一个请求
五、引擎将请求交给下载器进行处理
六、下载器发送请求获取互联网数据
七、下载器将数据返回给引擎
八、引擎将数据再次给spiders
九、spiders解析该数据，得到数据或url
十、spiders将数据或者url给引擎
十一、引擎判断是数据还是url，如果是数据交给管道（item pipeline）处理，是url交给调度器处理

相关文章

