wordpress-scraper:简单易用的抓取工具,可从WordPress JSON API抓取数据

时间:2024-05-03 09:29:26
【文件属性】:

文件名称:wordpress-scraper:简单易用的抓取工具,可从WordPress JSON API抓取数据

文件大小:47KB

文件格式:ZIP

更新时间:2024-05-03 09:29:26

python wordpress scraper wordpress-api-v2 Python

WordPress的刮板 描述 简单易用的抓取工具,可从WordPress JSON API抓取数据 特征 支持将爬网的文档存储为MongoDB文档/ JSON文件 自动重试错误 要求 Python 3.7以上 安装 pip install -r requirements.txt 如何使用 基本的 只需crawl.py提供的网站网址运行crawl.py : python3 crawl.py https://your.website.here 这将使用DefaultCrawlSession爬网该站点,该尝试尝试爬网该站点的所有posts , categories和tags 。 爬网的JSON文件将存储在目录./data/ 。 在大多数情况下,在抓取以下站点时就足够了: 不需要登录 JSON API路径未阻止 先进的 对于高级用法和自定义,您可能需要查看wp


【文件预览】:
wordpress-scraper-master
----legacy_crawl_all.py(456B)
----wpscraper()
--------utils.py(226B)
--------connector.py(3KB)
--------headers.py(751B)
--------document.py(857B)
--------crawler.py(3KB)
--------session.py(2KB)
----LICENSE(1KB)
----crawl.py(264B)
----legacy_main.py(602B)
----requirements.txt(33B)
----legacy()
--------crawler()
--------__init__.py(654B)
--------scripts()
----.gitignore(40B)
----file2mongo.py(1KB)
----README.md(1KB)

网友评论