文件名称:web-miner:抓取网站,查找新内容并将其抓取
文件大小:55KB
文件格式:ZIP
更新时间:2024-06-03 06:57:52
web-crawler scrapy data-engineer Python
保持最新-Web Miner 网络矿工 该存储库是的Web挖掘程序。 目标是部署一个Web爬网程序,给定一组特定的源(URL),该爬网程序应定位新文档(网页)并将其保存在DB中以备将来处理。 在可能且合法的情况下,可以使用API。 例如,用于 。 实施的潜在工具 我们非常依赖现有工具以及开发自己的新方法。 后来我们希望主机上 可以在存储基于JS的页面之前呈现它们。 可用于提取要保存的内容(文本)。 入门 要在本地运行此项目,首先需要安装依赖项程序包。 要安装它们,您可以使用 吹牛 水蟒 虚拟环境 使用pipenv进行安装(结合了virtualenv和pip) 安装pipenv sudo easy_install pip # if you haven't installed pip pip install pipenv # install pipenv brew install
【文件预览】:
web-miner-master
----.travis.yml(822B)
----.coveragerc(199B)
----app.py(230B)
----.deepsource.toml(136B)
----deploy()
--------Dockerfile(650B)
--------base.Dockerfile(997B)
--------docker-compose.yml(226B)
----.pylintrc(11KB)
----pytest.ini(95B)
----PULL_REQUEST_TEMPLATE.md(1KB)
----Pipfile(467B)
----.github()
--------ISSUE_TEMPLATE()
----Dockerfile(388B)
----tests()
--------external_interfaces()
--------conftest.py(303B)
--------tox.ini(0B)
--------interface_adapters()
--------__init__.py(0B)
--------use_case()
--------entities()
----app.json(507B)
----Procfile(45B)
----LICENSE(1KB)
----Pipfile.lock(27KB)
----CONTRIBUTING.md(3KB)
----setup.cfg(121B)
----codecov.yml(400B)
----.gitignore(1KB)
----webminer()
--------scrapy.cfg(259B)
--------external_interfaces()
--------interface_adapters()
--------__init__.py(0B)
--------use_cases()
--------entities()
----.circleci()
--------config.yml(1KB)
----CODE_OF_CONDUCT.md(3KB)
----README.md(8KB)
----Procfile.windows(45B)
----.vscode()
--------settings.json(380B)