文件名称:mrjob:在Hadoop或Amazon Web Services上运行MapReduce作业
文件大小:1.84MB
文件格式:ZIP
更新时间:2024-03-11 19:02:58
Python
mrjob:Python MapReduce库 mrjob是一个Python 2.7 / 3.4 +软件包,可帮助您编写和运行Hadoop Streaming作业。 mrjob完全支持Amazon的Elastic MapReduce(EMR)服务,该服务使您可以按小时购买Hadoop集群上的时间。 mrjob具有对Google Cloud Dataproc(Dataproc)的基本支持,该支持使您可以每分钟在Hadoop群集上购买时间。 它也可以与您自己的Hadoop集群一起使用。 一些重要功能: 在EMR,Google Cloud Dataproc,您自己的Hadoop群集或本地(用于测试)上运行作业。 编写多步骤的作业(一个映射减少步骤进入下一个步骤) 在EMR或您自己的Hadoop集群上轻松启动Spark作业 在Hadoop中复制生产环境 上载您的源代码树并将其放入作业的