文件名称:pudl-scrapers:刮板以从Web来源收集原始数据
文件大小:105KB
文件格式:ZIP
更新时间:2024-05-26 05:51:51
HTML
PUDL刮板机 安装 为了使自动化变得容易,建议您使用来管理python环境。 在您的虚拟环境中: pip install -r requirements.txt pip install ./ # OR pip install -e ./ # Done 输出位置 收集日志: [your home]/Downloads/pudl_scrapers/scraped/ 来自刮板的数据存储在: [your home]/Downloads/pudl_scrapers/scraped/[source_name]/[today #] 运行刮板 对于其中一种受支持的来源,通常的模式是scrapy crawl [source_name] 。 通常,还可以使用scrapy crawl [source_name] -a year=[year]形式的附加“ year”参数。 请参见下面的确切命令和可用参数
【文件预览】:
pudl-scrapers-main
----setup.py(280B)
----.gitignore(47B)
----Dockerfile(895B)
----requirements.txt(48B)
----pudl_scrapers()
--------middlewares.py(4KB)
--------spiders()
--------bin()
--------__init__.py(0B)
--------pipelines.py(1KB)
--------tests()
--------helpers.py(768B)
--------settings.py(3KB)
--------items.py(2KB)
----scrape_everything.sh(108B)
----.github()
--------workflows()
----README.md(2KB)
----scrapy.cfg(269B)