文件名称:common_crawl:用于处理 Common Crawl 和命令行实用程序的简单 Python MapReduce 作业
文件大小:13KB
文件格式:ZIP
更新时间:2024-07-17 01:08:18
Python
common_crawl 用于处理 Common Crawl 和命令行实用程序的 Python MapReduce 作业。 入门 确保您设置了 EC2 帐户 ( )。 您将需要以下便利: 您启动 EC2 实例的访问密钥和秘密 在 S3 上用于存储中间和最终作业结果的存储桶 注册 Elastic MapReduce (EMR)。 您不需要启动任何集群,因为默认情况下,MRJob 会在每个作业启动时创建一个临时集群(尽管如果您想重用现有集群,这是可配置的,请参阅: : )。 命令行作业的基本用法 这个 repo 使用 MRJob,这是一个来自 Yelp 的 Python MapReduce 库,它对于在 AWS 上启动临时 Elastic MapReduce (EMR) 集群特别有用,运行单个作业并在失败/完成时停止实例。 MRJob 可以在本地或标准(非 EMR)Hadoop 集群
【文件预览】:
common_crawl-master
----bin()
--------get_latest_cc(321B)
--------latest_cc(169B)
--------ccjob(220B)
----common_crawl()
--------file_links.py(2KB)
--------__init__.py(20B)
--------url_normalization.py(2KB)
--------regex_links.py(2KB)
--------regex_url.py(1KB)
--------base.py(5KB)
--------css_select.py(1KB)
----LICENSE(1KB)
----setup.cfg(21B)
----setup.py(626B)
----.gitignore(675B)
----mrjob.conf.example(2KB)
----README.md(6KB)