使用scrapy框架爬取当当网

在命令行中使用 scrapy startproject 项目名字 命令创建一个Scrapy项目，并进入该项目目录。

使用scrapy框架爬取当当网

在该项目中，使用Spider定义要爬取的网站和数据提取规则。例如，要爬取当当网上所有书籍信息，可以创建一个名为dangdang_spider.py的Spider文件，并实现scrapy.Spider类。需要定义起始URL、如何跟踪链接以及如何提取数据等操作。

使用scrapy框架爬取当当网

在items中定义要爬取的数据

使用scrapy框架爬取当当网

使用scrapy框架爬取当当网

执行了start_urls之后执行的方法方法中的response 就是返回的那个对象

# 相当于 response =urllib.request.urlopen()
#     response = requests.get()

使用scrapy框架爬取当当网

robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。

通俗讲就是网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

我们就不需要遵守了（doge）

使用scrapy框架爬取当当网

注释掉即可了

使用scrapy框架爬取当当网

管道可以有很多个 那么管道是有优先级的 优先级的范围是1到1000 值越小优先级越高

上述代码就开通了双管道

4.1解析数据

使用scrapy框架爬取当当网

4.2在管道中存储数据

使用scrapy框架爬取当当网

4.3在终端运行代码 scrapy crawl spider名称

最终下载到books文件和.json文件

使用scrapy框架爬取当当网

源码的话太多了我就不放了，可以私信我获取。

秒客网