文件名称:hadoop-mapreduce
文件大小:21.47MB
文件格式:ZIP
更新时间:2024-06-07 01:37:24
Java
#Hadoop-Mapreduce从Hadoop集群中的CDX文件中提取德国报纸和新闻站点的子集 怎么跑 使用以下代码编译和打包代码 mvn package 现在,目录target中应该有一个名为gen.sub-0.0.1-SNAPSHOT-job.jar的.jar,其中包含运行所需的所有类。 将.jar复制到集群并使用 hadoop jar gen.sub-0.0.1-SNAPSHOT-job.jar inputDirectory outputDirectory 在运行之前,请确保已设置内存规范,如下所示: export YARN_OPTS=-Xmx30G export HADOOP_CLIENT_OPTS="-Xmx10g" hadoop jar gen.sub-0.0.1-SNAPSHOT-job.jar har:/data/ia/derivatives/de/cdx/TB.
【文件预览】:
hadoop-mapreduce-master
----.gitignore(0B)
----.project(536B)
----README.md(707B)
----pom.xml(4KB)
----target()
--------gen.sub-0.0.1-SNAPSHOT-job.jar(21.44MB)
--------test-classes()
--------maven-archiver()
--------gen.sub-0.0.1-SNAPSHOT.jar(5KB)
--------maven-status()
--------classes()
--------surefire-reports()
----.settings()
--------org.eclipse.core.resources.prefs(115B)
--------org.eclipse.jdt.core.prefs(238B)
--------org.eclipse.m2e.core.prefs(86B)
----src()
--------test()
--------main()
----.classpath(996B)