scrapy-redis在GitHub上的地址:点击这里
使用过程:
步骤一:在cmd中进行scrapy项目的创建:scrapy startproject example (注意:设置到这里就可以了)
步骤二:下载scrapy-redis在GitHub上面的文件:https://github.com/rmax/scrapy-redis#feeding-a-spider-from-redis
下载后把/src/scrapy_redis这个文件复制到步骤一刚刚创建的项目(example)目录下
步骤三:在项目的spiders文件夹下创建你的爬虫文件example_spider.py
步骤四:在该爬虫上进行常规设置:
from scrapy_redis.spiders import RedisSpider class Examplespider(RedisSpider): name = 'example' redis_key = 'example: start_urls'
然后继续写你的代码,其他的和以往一样。
步骤五:爬虫写好后,在settings中添加
SCHEDULER = "scrapy_redis.scheduler.Scheduler" DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 300 }
添加的这三处也是从GitHub中的用法
步骤六:可以在pycharm中打断点测试,会看到处于监听状态,如下:
2018-05-18 21:15:17 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
步骤七:从cmd进入redis(redis-cli -h 127.0.0.1 -p 6379)
然后输入:
lpush examplespider:start_urls http://xxxx.com
所以是在cmd中输入你的start_urls 不像scrapy以往的方法在spider中直接添加url