scrapy-crawl-once:Scrapy中间件，仅允许抓取新内容下载

【文件属性】：

文件名称：scrapy-crawl-once:Scrapy中间件，仅允许抓取新内容

文件大小：9KB

文件格式：ZIP

更新时间：2024-05-24 23:51:35

scrapy Python

爬网一次该软件包提供了一个中间件，该中间件可以避免重新抓取以前在抓取中已下载的页面。许可证是麻省理工学院。安装 pip install scrapy-crawl-once 用法要启用它，请修改settings.py： SPIDER_MIDDLEWARES = { # ... 'scrapy_crawl_once.CrawlOnceMiddleware': 100, # ... } DOWNLOADER_MIDDLEWARES = { # ... 'scrapy_crawl_once.CrawlOnceMiddleware': 50, # ... } 默认情况下，它不执行任何操作。为了避免多次爬网特定页面，请设置request.meta['crawl_once'] = True 。当接收到响应并且回调成功时，此类请求的指纹将存

立即下载

【文件预览】：
scrapy-crawl-once-master
----MANIFEST.in(28B)
----.travis.yml(402B)
----README.rst(3KB)
----.coveragerc(20B)
----scrapy_crawl_once()
--------middlewares.py(4KB)
--------__init__.py(91B)
----CHANGES.rst(239B)
----tests()
--------test_middleware.py(3KB)
----tox.ini(266B)
----setup.cfg(135B)
----setup.py(2KB)
----.gitignore(141B)
----LICENSE.txt(1KB)

秒客网

scrapy-crawl-once:Scrapy中间件，仅允许抓取新内容

网友评论

相关文章