Hadoop学习笔记(5) ——编写HelloWorld(2)

Hadoop学习笔记(5)

——编写HelloWorld(2)

前面我们写了一个Hadoop程序，并让它跑起来了。但想想不对啊，Hadoop不是有两块功能么，DFS和MapReduce。没错，上一节我们写了一个MapReduce的HelloWorld程序，那这一节，我们就也学一学DFS程序的编写。

DFS是什么，之前已经了解过，它是一个分布式文件存储系统。不管是远程或本地的文件系统，其实从接口上讲，应该是一至的，不然很难处理。同时在第2节的最后，我们列出了很多一些DFS的操作命令，仔细看一下，这些命令其实跟linux中的文件操作命令很相似，所以说，对于分布式文件系统，我们完全可以用本地文件的方式来理解。

那理一下，一般常用操作有哪些？当然我们可以从编程角度来：

创建、读、写一个文件，列出文件夹中的文件及文件夹列表，删除文件夹，删除目录，移动文件或文件夹，重命名文件或文件夹。

同样，这里我们就依葫芦画瓢跑起个程序来：

启动eclipse，新建Hadoop项目，名称MyDFSTest，新建类DFSTest，点击确定，然后同样工程属性Configure BuildPath中把 build/ivy/lib/Hadoop下的所有jar包都引用进来。「这里就不详细截图了，可以参考前一节中的内容」

在类中，添加main函数：

public static void main(String[] args) {

}

也可以在添加类时，勾选上创建main，则会自动添加上。

在Main函数中添加以下内容：

try {

Configuration conf = new Configuration();

conf.set("fs.default.name", "hdfs://localhost:9000");

FileSystem hdfs = FileSystem.get(conf);

Path path = new Path("in/test3.txt");

FSDataOutputStream outputStream = hdfs.create(path);

byte[] buffer = " 你好Hello".getBytes();

outputStream.write(buffer, 0, buffer.length);

outputStream.flush();

outputStream.close();

System.out.println("Create OK");

} catch (IOException e) {

e.printStackTrace();

}

直接添加进来会报错，然后需要添加一些引用才行：

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

在没有错误后，点击工具条上的运行，但这次跟前次不一样，选择Run as Java Application。然后，就可以在输出框中看到Create OK的字样了，表明程序运行成功。

这段代码的意思是在in文件夹下，创建test3.txt，里面的内容是"你好Hello"。在运行完后，我们可以到eclipse的Project Explorer中查看是否有这文件以及内容。同样也可以用命令行查看$bin/hadoop fs -ls in。

好了，第一个操作DFS的程序跑起来了，那其它功能只要套上相应的处理类就可以了。

为了方便查找操作，我们列举了张表：

操作说明	操作本地文件	操作DFS文件
主要命名空间	java.io.File java.io.FileInputStream java.io.FileOutputStream	org.apache.hadoop.conf.Configuration org.apache.hadoop.fs.FileSystem org.apache.hadoop.fs.Path org.apache.hadoop.fs.FSDataInputStream; org.apache.hadoop.fs.FSDataOutputStream
初使化对象	new File(路径);	Configuration FileSystem hdfs
创建文件	File.createNewFile();	FSDataOutputStream = hdfs.create(path) FSDataOutputStream.write( buffer, 0, buffer.length);
创建文件夹	File.mkdir()	hdfs.mkdirs(Path);
读文件	new FileInputStream(); FileInputStream.read(buffer)	FSDataInputStream = hdfs.open(path); FSDataInputStream.read(buffer);
写文件	FileOutputStream.write( buffer, 0, buffer.length);	FSDataOutputStream = hdfs.append(path) FSDataOutputStream.write( buffer, 0, buffer.length);
删除文件(夹)	File.delete()	FileSystem.delete(Path)
列出文件夹内容	File.list();	FileSystem.listStatus()
重命令文件(夹)	File.renameTo(File)	FileSystem.rename(Path, Path)

有了这张表，以后不怕了，代码搬搬即可。

接下来换个话题。

本人主要从事.net开发的，所以对于java上，还是有点生。所以接下来半章中，简要的把JAVA的学习列一列。

JAVA和.net现在从语言角度看，的确有很多相似之处。但也有不同之处，这就是我们要学的。

在.Net中，主要有dll和exe， dll为类库， exe为可执行程序，在exe中有唯一的main函数，作为函数入口。dll 类库是无法执行的，exe可以双击运行，也可以命令行执行。编译后，.net会把所有定义的类编译进exe或dll中，一个工程产出文件就是一个。

在JAVA中，jar对应的类库，可以被别人调用。exe就不存在了。一个工程编译后，产出物是一堆的.class文件，在开发中每一个定义的类，都会被编译成这个.class文件。而且一个.java文件中，不能定义多个*类（嵌套类是可以的），且文件名与类名必须相同，文件所以的目录必须和命名空间相同。所以编译后，可以讲一个.java文件将会编译成一个.class文件，且有与原先的目录相同。

也就是说，java有点像散装的一样，产物就是一堆的.class文件。那jar文件呢，简单的说，就是一个zip包，把一堆的.class文件打包成一个压缩包。

同时，一个工程中，支持多个main函数，即多个入口。

说了一堆，还不如实践一下：

在eclipse中，创建一个JAVA project 取名为JAVAStudy。

然后创建两个类，没有目录的，ch1 ch2 再创建一个包叫pkg1，在这个包下创建一个类ch3：

Hadoop学习笔记(5) ——编写HelloWorld(2)

然后，每个类下都建一个main函数，内容打印类名：

public static void main(String[] args) {

System.out.println(ch1.class.getName());

}

注意，复制到ch2 ch3中后要改一下里面的类名。

然后每当你切换到一个新的类代码中，点击运行，都会提示Run As ，都选Java Application。然后就可以看到结果了，每个类都可以作为入口执行。

OK，程序好了，如何发布呢，或如何从命令行运行呢？

我们进入目录先看一下：

Hadoop学习笔记(5) ——编写HelloWorld(2)

进入工程目录，可以看到有src和bin，进入bin，就可以看到一个个的class文件了，的确跟前面描述一样，目录与代码相同结构。

Hadoop学习笔记(5) ——编写HelloWorld(2)

输入java ch1 就可以看到结果了。执行ch3时，注意中间不是斜线，而是点，因为这里输入的是命名空间＋类名，而不是class文件的路径。

如果不在这个目录执行，看到会报错，或命名空间输错了，也是这个错。

Hadoop学习笔记(5) ——编写HelloWorld(2)

如果我就在这里想执行呢？可以这样：

Hadoop学习笔记(5) ——编写HelloWorld(2)

利用classpath指定class的路径。

如何打成jar包：

进入bin目录：

$cd bin

$jar cvf test.jar ch1.class ch2.class pkg1/.class

然后在bin目录下就可以看到test.jar文件了。

如何执行jar呢，为了防止与里面的class文件冲突，我们将test.jar复制到外面来：

$cp test.jar ../

$cd ..

再执行：

$java –classpath test.jar ch1

Hadoop学习笔记(5) ——编写HelloWorld(2)

同样，输入classpath就可以搞定了的。

了解了这些后，我们又可以做个试验证了。第一章中我们运行hadoop中Helloword时，是调用了example的jar包。所以这里我们可以把上一章的程序也来打个jar包，试下是否能运行：

$cd ~/workspace/MyHelloWorld //进入HelloWorld代码目录

$cd bin

$jar cvf test.jar *.class //打上jar包

$cp test.jar ../../hadoop-0.20.2 //将jar包复制到hadoop目录下

$cd ../../hadoop-0.20.2

$bin/start-all.sh //启动hadoop

$bin/hadoop test.jar WordCount in out //运行我们写的程序

然后就可以看到与之前一样的结果了。

Hadoop学习笔记(5) ——编写HelloWorld(2)的更多相关文章

Go学习笔记(二)&colon;编写 HelloWorld 程序
//Hello.go代码 package main import "fmt" func main(){ fmt.Printf("Hello, world!This is ...
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclip ...
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...
Hadoop学习笔记(9) ——源码初窥
Hadoop学习笔记(9) ——源码初窥之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例.接下来其实就有两条路可走了,一条是继续 ...
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...
Hadoop学习笔记(10) ——搭建源码学习环境
Hadoop学习笔记(10) ——搭建源码学习环境上一章中,我们对整个hadoop的目录及源码目录有了一个初步的了解,接下来计划深入学习一下这头神象作品了.但是看代码用什么,难不成gedit?,单步 ...
[转帖]hadoop学习笔记：hadoop文件系统浅析
hadoop学习笔记:hadoop文件系统浅析 https://www.cnblogs.com/sharpxiajun/archive/2013/06/15/3137765.html 1.什么是分布式 ...
Hadoop学习笔记—22&period;Hadoop2&period;x环境搭建与配置
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...
Hadoop学习笔记(2)
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...

随机推荐

纯Swift编写的仿&OpenCurlyDoubleQuote;随遇”应用源码
纯Swift编写的仿“随遇”App概述此项目是为了巩固Swift掌握而编写的,素材均来自“随遇”官方App 用Storyboard+Xib+Autolayout的方式来实现UI部分由于项目不复杂, ...
Haproxy+Keepalived高可用负载均衡详细配置
本文所使用的环境: 10.6.2.128 centos6.5 10.6.2.129 centos6.5 VIP 为10.6.2.150 要实现的目标: 实现10.6.2.128和10.6 ...
jquery this 与javascript的this
<div class="list"> <table> <thead> <tr> <th width="110&quo ...
DIY Ruby CPU 分析——Part III
[编者按]作者 Emil Soman,Rubyist,除此之外竟然同时也是艺术家,吉他手,Garden City RubyConf 组织者.本文是 DIY Ruby CPU Profiling 的第二 ...
Sublime Text使用手记
1.Package Control 输入python 命令安装,打开控制台输入下方代码运行即可.控制台打开可使用快捷键Ctrl+~ 或菜单栏中View> Show Console,可访问Pack ...
KVC 和 OC字典
KVC(键值编码)和OC 字典很相似,都是键值存储.但是OC 字典比较灵活,它是一种映射. [dict setObject:<#(id)#> forKey:<#(id<NSCo ...
linux之文本编辑器
[目标] 管理员在进行系统操作的时候,不可避免地会对文本进行修改,如进行各种服务程序配置文件的修改,使程序对用户提供不同的服务效果.在本章我们向大家介绍Linux上常见的编辑器ed.vi.emacs, ...
JavaScript 数值Number类型详解
Number 问题如果下面的问题你都能回答对了吗? 0.1 + 0.2 == 0.3 成立吗? .e-5 表示多少? 怎么表示8进制? 怎么转换进制? 如何将字符串转换成数值或整数?反过来呢?十六进 ...
Linux下C语言的调试 - gdb
调试是每个程序员都会面临的问题. 如何提高程序员的调试效率, 更好更快地定位程序中的问题从而加快程序开发的进度, 是大家共同面对的问题. 可能Windows用户顺口就会说出:用VC呗 :-) , 它提 ...
cocos creator 动态创建精灵
var node = new cc.Node();var sprite = node.addComponent(cc.Sprite);sprite.spriteFrame = new cc.Sprit ...