文件名称:zineb:用于机器学习和数据科学的高级Web抓取框架
文件大小:194KB
文件格式:ZIP
更新时间:2024-03-06 23:01:52
HTML
介绍 Zineb是一种轻量级的工具解决方案,用于围绕BeautifulSoup和Pandas构建简单而有效的Web抓取和抓取。 它的主要目的是帮助快速构建数据,以便在数据科学或机器学习项目中尽快使用。 了解Zineb的工作方式 Zineb获取自定义蜘蛛,为每个URL创建一组HTTPRequest对象,发送请求并将该页面的BeautifulSoup对象缓存在该请求的HTMLResponse类中。 您与HTML页面的大多数交互将通过HTMLResponse类完成。 当Spider开始抓取页面时,过去通过start函数进行的每个响应和请求: def start(self, response, **kwargs): request = kwargs.get('request') images = response.images 创建蜘蛛 创建蜘蛛非常容易,并且需要一组可用
【文件预览】:
zineb-main
----extractors()
--------base.py(6KB)
--------images.py(3KB)
--------links.py(4KB)
--------stop_words(4KB)
----.gitignore(2KB)
----setup.cfg(39B)
----settings()
--------base.py(3KB)
--------zineb.conf(20B)
--------__init__.py(1KB)
----app.py(7KB)
----signals.py(2KB)
----LICENCE(1KB)
----README.md(17KB)
----middleware.py(1KB)
----utils()
--------general.py(3KB)
--------_html.py(530B)
----manage.py(110B)
----http()
--------pipelines.py(6KB)
--------user_agent.py(1KB)
--------request.py(9KB)
--------headers.py(2KB)
--------responses.py(8KB)
----exceptions.py(638B)
----tests()
--------test_http_pipelines.py(969B)
--------test_requests.py(2KB)
--------test_response.py(1KB)
--------test_validators.py(615B)
--------test_commands.py(171B)
--------_test_example.py(348B)
--------test_signals.py(284B)
--------_test_download_images.py(968B)
--------test_models.py(2KB)
--------_testing.py(215B)
--------test_spider.py(2KB)
--------html()
--------test_middlewares.py(580B)
--------test_utils.py(738B)
--------test_fields.py(5KB)
--------test_extractors.py(3KB)
--------automate.yaml(98B)
--------__init__.py(389B)
--------test_tags.py(1KB)
--------test_checks.py(46B)
--------test_json_requests.py(641B)
--------testing.ipynb(2KB)
----.vscode()
--------launch.json(490B)
--------settings.json(260B)
----middlewares()
--------handlers.py(90B)
--------statistics.py(242B)
--------referer.py(1KB)
--------automation.py(858B)
--------history.py(589B)
--------wireframe.py(934B)
----models()
--------signals.py(76B)
--------fields.py(14KB)
--------validators.py(3KB)
--------datastructure.py(10KB)
--------pipeline.py(1KB)
----monitoring.py(1KB)
----checks()
--------http.py(475B)
--------base.py(3KB)
--------core.py(752B)
----__init__.py(0B)
----requirements.txt(129B)
----management()
--------base.py(505B)
--------__init__.py(2KB)
--------commands()
----version.py(32B)
----setup.py(2KB)
----templates()
--------project()
----tags.py(6KB)