文件名称:scraperx:用于抓取任何规模的网站或API的库
文件大小:62KB
文件格式:ZIP
更新时间:2024-06-05 09:05:17
python library framework python-library webscraper
ScraperX SDK 入门 创建一个新目录,刮板将驻留在该目录中,并添加以下文件: 配置文件: config.yaml your_scraper.py文件: your_scraper.py 接下来从pypi安装此库: pip install scraperx 通过运行python your_scraper.py dispatch运行完整的scraper 要查看命令的参数,请执行以下操作: python your_scraper.py dispatch -h 查看所有可用命令: python your_scraper.py -h 刮板样品 可以在此仓库的文件夹中找到刮板样品 发展 每当刮板需要覆盖__init__ ,总是像这样传递*args和**kwargs : def __init__ ( self , * args , ** kwargs ): super
【文件预览】:
scraperx-main
----examples()
--------minimal.py(5KB)
--------multiple_extractors.py(2KB)
--------dispatch_cookie_selenium.py(6KB)
--------config.yaml(2KB)
--------page_dispatch.py(2KB)
--------json_source.py(965B)
--------README.md(3KB)
--------page_trigger_download.py(2KB)
--------qa_results.py(1KB)
--------multiple_sources.py(3KB)
--------gen_cookie_requests.py(3KB)
----tox.ini(360B)
----LICENSE(1KB)
----setup.py(843B)
----README.md(15KB)
----scraperx()
--------exceptions.py(441B)
--------config.py(15KB)
--------download.py(18KB)
--------proxies.py(2KB)
--------arguments.py(3KB)
--------test.py(6KB)
--------utils.py(5KB)
--------user_agent.py(4KB)
--------save_to.py(6KB)
--------__init__.py(1KB)
--------scraper.py(2KB)
--------write.py(4KB)
--------parsers.py(2KB)
--------extract.py(16KB)
--------trigger.py(4KB)
--------dispatch.py(5KB)
--------run_cli.py(6KB)
----docs()
--------source()
--------make.bat(799B)
--------Makefile(638B)
----tests()
--------__init__.py(0B)
--------test_parsers.py(1KB)
--------test_utils.py(2KB)
--------files()
----.gitignore(99B)
----.gitlab-ci.yml(1KB)
----CHANGELOG.md(2KB)