scrapy-crawl-once:Scrapy中间件,仅允许抓取新内容

时间:2024-05-24 23:51:35
【文件属性】:

文件名称:scrapy-crawl-once:Scrapy中间件,仅允许抓取新内容

文件大小:9KB

文件格式:ZIP

更新时间:2024-05-24 23:51:35

scrapy Python

爬网一次 该软件包提供了一个中间件,该中间件可以避免重新抓取以前在抓取中已下载的页面。 许可证是麻省理工学院。 安装 pip install scrapy-crawl-once 用法 要启用它,请修改settings.py: SPIDER_MIDDLEWARES = { # ... 'scrapy_crawl_once.CrawlOnceMiddleware': 100, # ... } DOWNLOADER_MIDDLEWARES = { # ... 'scrapy_crawl_once.CrawlOnceMiddleware': 50, # ... } 默认情况下,它不执行任何操作。 为了避免多次爬网特定页面,请设置request.meta['crawl_once'] = True 。 当接收到响应并且回调成功时,此类请求的指纹将存


【文件预览】:
scrapy-crawl-once-master
----MANIFEST.in(28B)
----.travis.yml(402B)
----README.rst(3KB)
----.coveragerc(20B)
----scrapy_crawl_once()
--------middlewares.py(4KB)
--------__init__.py(91B)
----CHANGES.rst(239B)
----tests()
--------test_middleware.py(3KB)
----tox.ini(266B)
----setup.cfg(135B)
----setup.py(2KB)
----.gitignore(141B)
----LICENSE.txt(1KB)

网友评论