【hadoop2.6.0】通过代码运行程序流程

之前跑了一下hadoop里面自带的例子，现在顺一下如何通过源代码来运行程序。

我懒得装eclipse,就全部用命令行了。

整体参考官网上的：http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Example:_WordCount_v1.0

注意：所有的代码都放在hadoop的根文件夹下面，否则会提示找不到主类！

①写源代码，保存为WordCount.java

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

  public static class TokenizerMapper

       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);

    private Text word = new Text();

    public void map(Object key, Text value, Context context

                    ) throws IOException, InterruptedException {

      StringTokenizer itr = new StringTokenizer(value.toString());

      while (itr.hasMoreTokens()) {

        word.set(itr.nextToken());

        context.write(word, one);

      }

    }

  }

  public static class IntSumReducer

       extends Reducer<Text,IntWritable,Text,IntWritable> {

    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values,

                       Context context

                       ) throws IOException, InterruptedException {

      int sum = 0;

      for (IntWritable val : values) {

        sum += val.get();

      }

      result.set(sum);

      context.write(key, result);

    }

  }

  public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();

    Job job = Job.getInstance(conf, "word count");

    job.setJarByClass(WordCount.class);

    job.setMapperClass(TokenizerMapper.class);

    job.setCombinerClass(IntSumReducer.class);

    job.setReducerClass(IntSumReducer.class);

    job.setOutputKeyClass(Text.class);

    job.setOutputValueClass(IntWritable.class);

    FileInputFormat.addInputPath(job, new Path(args[0]));

    FileOutputFormat.setOutputPath(job, new Path(args[1]));

    System.exit(job.waitForCompletion(true) ? 0 : 1);

  }

}

②把源代码编译打包成jar文件

$ bin/hadoop com.sun.tools.javac.Main WordCount.java

$ jar cf wc.jar WordCount*.class

这样就生成了jar文件

③运行文件

假设已经有一些文件上传到了/user/kzy/input2/hadoop 文件夹，已经有/user/kzy/output文件夹，那么下面的语句令输出都放在新建的wc文件夹里

bin/hadoop jar wc.jar WordCount /user/kzy/input2/hadoop /user/kzy/output/wc

【hadoop2.6.0】通过代码运行程序流程的更多相关文章

【目录】 hadoop2&period;6&period;0
hadoop2.6.0 安装+例子运行数据丢失问题解决通过代码运行程序流程利用Hadoop的 Java API 利用JAVA API 实现数据上传
编写简单的Mapreduce程序并部署在Hadoop2&period;2&period;0上运行
今天主要来说说怎么在Hadoop2.2.0分布式上面运行写好的 Mapreduce 程序. 可以在eclipse写好程序,export或用fatjar打包成jar文件. 先给出这个程序所依赖的Mave ...
使用命令行编译打包运行自己的MapReduce程序 Hadoop2&period;6&period;0
使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0 网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的 ...
在Ubuntu下配置运行Hadoop2&period;4&period;0单节点配置
还没有修改hosts,请先按前文修改. 还没安装java的,请按照前文配置. (1)增加用户并设立公钥: sudo addgroup hadoop sudo adduser --ingroup had ...
一套代码小程序&amp&semi;Web&amp&semi;Native运行的探索05——snabbdom
接上文:一套代码小程序&Web&Native运行的探索04——数据更新对应Git代码地址请见:https://github.com/yexiaochai/wxdemo/tree/ma ...
一套代码小程序&amp&semi;Web&amp&semi;Native运行的探索04——数据更新
接上文:一套代码小程序&Web&Native运行的探索03 对应Git代码地址请见:https://github.com/yexiaochai/wxdemo/tree/master/m ...
一套代码小程序&amp&semi;Web&amp&semi;Native运行的探索03——处理模板及属性
接上文:一套代码小程序&Web&Native运行的探索02 对应Git代码地址请见:https://github.com/yexiaochai/wxdemo/tree/master/m ...
Tensorflow版Faster RCNN源码解析（TFFRCNN）（3）推断（测试）过程使用RPN时代码运行流程
本blog为github上CharlesShang/TFFRCNN版源码解析系列代码笔记第三篇推断(测试)过程不使用RPN时代码运行流程作者:Jiang Wu 原文见:https://hom ...
Tensorflow版Faster RCNN源码解析（TFFRCNN）（2）推断（测试）过程不使用RPN时代码运行流程
本blog为github上CharlesShang/TFFRCNN版源码解析系列代码笔记第二篇推断(测试)过程不使用RPN时代码运行流程作者:Jiang Wu 原文见:https://hom ...

随机推荐

Python进阶【第二篇】多线程、消息队列queue
1.Python多线程.多进程目的提高并发 1.一个应用程序,可以有多进程和多线程 2.默认:单进程,单线程 3.单进程,多线程 IO操作,不占用CPU python的多线程:IO操作,多线程提供并 ...
iframe整理学习笔记
朋友问了一个比较怪的问题,iframe下自适应的问题,因为很少使用iframe的原因,怀着对iframe的疑惑采用了一点点实践;以下frame表示针对的iframe元素解决的方法:对iframe进行 ...
Unity3D 经验记录
1.using UnityEngine.SceneManagement; 当在01场景调用02场景时,再载入回01场景时,代码保存的变量不会初始化,预制物体脚本内的变量会初始化. 2.当子物体太多时, ...
Oracle优化笔记
2016-11-22 子查询:标量子查询内联视图(in-line view) 半连接/反连接标量子查询 select 后跟子查询类似自定义函数可用开窗函数之类的改写内联视图(in ...
对于querystring取值时候发生+号变空格的问题
今天遇到这个问题,在网上找了几个答案,解决了问题,很高兴,所以贴出来给大家分享一下: URL如下 http://127.0.0.1/test/test.aspx?sql= and id='300+' ...
postman 第6节录制case
我们先安装Postman Interceptor 记得一定要安装Postman Interceptor插件,这样在谷歌浏览器*问的信息都会在postman的app端同步显示.安装好后Postman ...
zookeeper 实现分布式锁
主要是依赖临时节点的特性.数据存储到内存中效率高:例如有web1 web2 两台应用服务器 db1 db2两台db服务器 db互为主备,web1 web2 分别去修改db1 .有限db2库里张三的年 ...
三、如何使用QtDesigner
三.如何使用QtDesigner 启动 QtDesigner,创建一个PyQt项目拖动Label到主窗体,双击并输入自己想输入的文字并保持为 HelloWorld.ui 此时在你Python项目下 ...
python flask 解决中文乱码
response = make_response(output_string)response.headers['Content-Type'] = 'text/plain;charset=UTF-8' ...
【C&num;复习总结】细说委托
1 前言本系列会将[委托] [匿名方法][Lambda表达式] [泛型委托] [表达式树] [事件]等基础知识总结一下.(本人小白一枚,有错误的地方希望大佬指正) 系类1:细说委托系类2:细说匿名 ...