scrapy框架

scrapy

1.scrapy

（1）scrapy是什么？ Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘，信息处理 或存储历史数据等一系列的程序中。

（2）安装scrapy：
pip install scrapy

2.scrapy项目的创建以及运行

1.创建scrapy项目：
终端输入 scrapy startproject 项目名称

2.项目组成：
spiders
__init__.py
自定义的爬虫文件.py ‐‐‐》由我们自己创建，是实现爬虫核心功能的文件
__init__.py
items.py ‐‐‐》定义数据结构的地方，是一个继承自scrapy.Item的类
middlewares.py ‐‐‐》中间件 代理
pipelines.py ‐‐‐》管道文件，里面只有一个类，用于处理下载数据的后续处理
默认是300优先级，值越小优先级越高（1‐1000）
settings.py ‐‐‐》配置文件 比如：是否遵守robots协议，User‐Agent定义等

示例

scrapy框架

3.创建爬虫文件：
（1）跳转到spiders文件夹 cd 目录名字/目录名字/spiders
（2）scrapy genspider 爬虫名字 网页的域名
爬虫文件的基本组成：
继承scrapy.Spider类
name = 'baidu' ‐‐‐》 运行爬虫文件时使用的名字
allowed_domains ‐‐‐》 爬虫允许的域名，在爬取的时候，如果不是此域名之下的
url，会被过滤掉
start_urls ‐‐‐》 声明了爬虫的起始地址，可以写多个url，一般是一个
parse(self, response) ‐‐‐》解析数据的回调函数
response.text ‐‐‐》响应的是字符串
response.body ‐‐‐》响应的是二进制文件
response.xpath()‐》xpath方法的返回值类型是selector列表
extract() ‐‐‐》提取的是selector对象的是data
extract_first() ‐‐‐》提取的是selector列表中的第一个数据

scrapy框架

4.运行爬虫文件：
scrapy crawl 爬虫名称
注意：应在spiders文件夹内执行

(venv) PS D:\Code\pythonProject\pcdemo\scrapy_carhome_3\scrapy_carhome_3\spiders> scrapy crawl car

3.scrapy架构组成

（1）引擎 ‐‐‐》自动运行，无需关注，会自动组织所有的请求对象，分发给下载器
（2）下载器 ‐‐‐》从引擎处获取到请求对象后，请求数据
（3）spiders ‐‐‐》Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例
如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说，Spider就是您定义爬取的动作及
分析某个网页(或者是有些网页)的地方。
（4）调度器 ‐‐‐》有自己的调度规则，无需关注
（5）管道（Item pipeline） ‐‐‐》最终处理数据的管道，会预留接口供我们处理数据
当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。
每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行
一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。
以下是item pipeline的一些典型应用：
1. 清理HTML数据
2. 验证爬取的数据(检查item包含某些字段)
3. 查重(并丢弃)
4. 将爬取结果保存到数据库中

4.scrapy工作原理

scrapy框架

scrapy

1.scrapy

2.scrapy项目的创建以及运行

3.scrapy架构组成

4.scrapy工作原理

相关文章