scrapy-redis功能简介

时间:2023-05-15 11:16:38

connection:连接redis最基本文件

default:默认值设置文件

dupefiler_key 保存指纹

dupefilter:替换scrapy默认的url去重器

piklecompat:序列化

pipelines:将item保存到redis中,实现item分布式保存

queue:实现3中队列,队列,栈,优先级队列,替换scrapy中队列

scheduler:替换scrapy的调度器

spider:通过redis读取start_url

utils:python3兼容性

分布式爬虫逻辑?

把scheduler放到redis中,items序列化,放到redis中,把中间状态放到redis中