文件名称:wordpress-scraper:简单易用的抓取工具,可从WordPress JSON API抓取数据
文件大小:47KB
文件格式:ZIP
更新时间:2024-05-03 09:29:26
python wordpress scraper wordpress-api-v2 Python
WordPress的刮板
描述
简单易用的抓取工具,可从WordPress JSON API抓取数据
特征
支持将爬网的文档存储为MongoDB文档/ JSON文件
自动重试错误
要求
Python 3.7以上
安装
pip install -r requirements.txt
如何使用
基本的
只需crawl.py提供的网站网址运行crawl.py :
python3 crawl.py https://your.website.here
这将使用DefaultCrawlSession爬网该站点,该尝试尝试爬网该站点的所有posts , categories和tags 。
爬网的JSON文件将存储在目录./data/
【文件预览】:
wordpress-scraper-master
----legacy_crawl_all.py(456B)
----wpscraper()
--------utils.py(226B)
--------connector.py(3KB)
--------headers.py(751B)
--------document.py(857B)
--------crawler.py(3KB)
--------session.py(2KB)
----LICENSE(1KB)
----crawl.py(264B)
----legacy_main.py(602B)
----requirements.txt(33B)
----legacy()
--------crawler()
--------__init__.py(654B)
--------scripts()
----.gitignore(40B)
----file2mongo.py(1KB)
----README.md(1KB)