CommonCrawlMiner:使用 AWS S3、SQS 和 EC2 挖掘 Common Crawl 数据下载

【文件属性】：

文件名称：CommonCrawlMiner:使用 AWS S3、SQS 和 EC2 挖掘 Common Crawl 数据

文件大小：709KB

文件格式：ZIP

更新时间：2024-07-24 10:05:49

Python

CommonCrawlMiner /Libs ：可通过 pip 部署的库，以简化访问 CommonCrawl 数据、管理 S3、SQS 和 EC2 操作的过程/prototype：一个简单的原型，使用库来分析所有 CommonCrawl 元数据文件。

立即下载

【文件预览】：
CommonCrawlMiner-master
----.gitignore(134B)
----fabfile.py(238B)
----libs()
--------setup.py(429B)
--------__init__.py(20B)
--------cclib()
--------MANIFEST(304B)
----README.md(240B)
----prototype()
--------Monitor.ipynb(6KB)
--------fabfile.py(6KB)
--------config.py(5KB)
--------readme.md(85B)

秒客网

CommonCrawlMiner:使用 AWS S3、SQS 和 EC2 挖掘 Common Crawl 数据

网友评论

相关文章