common_crawl:用于处理 Common Crawl 和命令行实用程序的简单 Python MapReduce 作业下载

【文件属性】：

文件名称：common_crawl:用于处理 Common Crawl 和命令行实用程序的简单 Python MapReduce 作业

文件大小：13KB

文件格式：ZIP

更新时间：2024-07-17 01:08:18

Python

common_crawl 用于处理 Common Crawl 和命令行实用程序的 Python MapReduce 作业。入门确保您设置了 EC2 帐户 ( )。您将需要以下便利：您启动 EC2 实例的访问密钥和秘密在 S3 上用于存储中间和最终作业结果的存储桶注册 Elastic MapReduce (EMR)。您不需要启动任何集群，因为默认情况下，MRJob 会在每个作业启动时创建一个临时集群（尽管如果您想重用现有集群，这是可配置的，请参阅： : ）。命令行作业的基本用法这个 repo 使用 MRJob，这是一个来自 Yelp 的 Python MapReduce 库，它对于在 AWS 上启动临时 Elastic MapReduce (EMR) 集群特别有用，运行单个作业并在失败/完成时停止实例。 MRJob 可以在本地或标准（非 EMR）Hadoop 集群

立即下载

【文件预览】：
common_crawl-master
----bin()
--------get_latest_cc(321B)
--------latest_cc(169B)
--------ccjob(220B)
----common_crawl()
--------file_links.py(2KB)
--------__init__.py(20B)
--------url_normalization.py(2KB)
--------regex_links.py(2KB)
--------regex_url.py(1KB)
--------base.py(5KB)
--------css_select.py(1KB)
----LICENSE(1KB)
----setup.cfg(21B)
----setup.py(626B)
----.gitignore(675B)
----mrjob.conf.example(2KB)
----README.md(6KB)

秒客网

common_crawl:用于处理 Common Crawl 和命令行实用程序的简单 Python MapReduce 作业

网友评论

相关文章