文件名称:comcrawl:用于下载常见抓取数据的python实用程序
文件大小:44KB
文件格式:ZIP
更新时间:2024-05-29 23:04:47
python data deep-learning scraping commoncrawl
cra草 comcrawl是一个python软件包,用于轻松地从查询和下载页面。 介绍 通过阅读这篇我受到鼓舞而变得草。 注意:我这样做是出于个人项目和娱乐目的。 因此,此软件包旨在用于中小型项目,因为它并未针对处理千兆字节或兆字节的数据进行优化。 在这种情况下,您可能想签出或 。 什么是普通抓取? Common Crawl项目是“任何人都可以访问和分析的Web爬网数据的开放存储库” 。 它包含数十亿个网页,通常用于NLP项目以收集大量文本数据。 Common Crawl提供了一个,您可以使用该在其爬网数据中搜索某些URL。 每个搜索结果均包含指向其用于下载页面的特定位置的链接和字节偏移。 爬虫提供了什么? comcrawl提供了可在python程序中使用的简单API接口,从而简化了从Common Crawl搜索和下载的过程。 安装 在PyPI上可以使用comcrawl 。 通
【文件预览】:
comcrawl-master
----poetry.lock(43KB)
----.gitignore(2KB)
----pyproject.toml(1KB)
----LICENSE(1KB)
----CHANGELOG.md(510B)
----setup.cfg(125B)
----comcrawl()
--------core()
--------__init__.py(204B)
--------types.py(214B)
--------utils()
----.github()
--------workflows()
----scripts()
--------publish-test.sh(117B)
--------test.sh(88B)
--------format.sh(95B)
--------lint.sh(618B)
----README.md(4KB)
----tests()
--------snapshots()
--------test_comcrawl.py(655B)
--------__init__.py(0B)
--------comcrawl()
----.pylintrc(2KB)
----.gitattributes(66B)