文件名称:scrapelib:小型刮板库,用于检测各种在线平台上的审查模式
文件大小:89KB
文件格式:ZIP
更新时间:2024-03-04 06:56:29
HTML
Scrapelib(工作名称) 小型刮板库,用于检测各种在线平台上的审查模式。 建立: 此模块需要pip和Python3下载。 克隆此存储库后,请使用“ pip3 install -r requirements.txt”下载所有必要的第三方软件包。 用法: Bot是通过以下方式诱发的: python3 driver.py 去做: 自动拉线/更新 使用存储在json文件中的XPath将抽象的Scraper类适合不同的论坛 使用XPath收集目标信息 统计分析和原始数据报告 司机 主驱动程序文件将是用户与Scrapelib进行交互的主要方式。 用户可以生成一个DriverBot对象,该对象将处理不同子类的任务计划和操作委托。 用户将能够指定诸如刷新频率,最大后缓存大小,报告格式等字段。 可以实例化子类以进行特定的测试(请参阅ThreadScraper描述),以及用于自定义Driver
【文件预览】:
scrapelib-main
----.gitignore(56B)
----requirements.txt(247B)
----resources()
--------config.sh(244B)
--------__pycache__()
--------tags.json(299B)
--------util.py(2KB)
--------activate.sh(243B)
--------old()
----crawler.py(8KB)
----scraper.py(4KB)
----LICENSE(1KB)
----.DS_Store(10KB)
----threadscraper.py(10KB)
----cache()
--------logs()
----README.md(5KB)
----__pycache__()
--------crawler.cpython-38.pyc(5KB)
--------crawler.cpython-37.pyc(5KB)
--------driver.cpython-37.pyc(5KB)
--------threadscraper.cpython-37.pyc(6KB)
--------scraper.cpython-38.pyc(3KB)
--------threadscraper.cpython-38.pyc(3KB)
--------util.cpython-38.pyc(2KB)
----test.py(425B)
----driver.py(7KB)
----scrapelib.code-workspace(75B)