CommonCrawlMiner:使用 AWS S3、SQS 和 EC2 挖掘 Common Crawl 数据

时间:2024-07-24 10:05:49
【文件属性】:

文件名称:CommonCrawlMiner:使用 AWS S3、SQS 和 EC2 挖掘 Common Crawl 数据

文件大小:709KB

文件格式:ZIP

更新时间:2024-07-24 10:05:49

Python

CommonCrawlMiner /Libs :可通过 pip 部署的库,以简化访问 CommonCrawl 数据、管理 S3、SQS 和 EC2 操作的过程/prototype:一个简单的原型,使用库来分析所有 CommonCrawl 元数据文件。


【文件预览】:
CommonCrawlMiner-master
----.gitignore(134B)
----fabfile.py(238B)
----libs()
--------setup.py(429B)
--------__init__.py(20B)
--------cclib()
--------MANIFEST(304B)
----README.md(240B)
----prototype()
--------Monitor.ipynb(6KB)
--------fabfile.py(6KB)
--------config.py(5KB)
--------readme.md(85B)

网友评论