Hadoop学习笔记(5)
——编写HelloWorld(2)
前面我们写了一个Hadoop程序,并让它跑起来了。但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce。没错,上一节我们写了一个MapReduce的HelloWorld程序,那这一节,我们就也学一学DFS程序的编写。
DFS是什么,之前已经了解过,它是一个分布式文件存储系统。不管是远程或本地的文件系统,其实从接口上讲,应该是一至的,不然很难处理。同时在第2节的最后,我们列出了很多一些DFS的操作命令,仔细看一下,这些命令其实跟linux中的文件操作命令很相似,所以说,对于分布式文件系统,我们完全可以用本地文件的方式来理解。
那理一下,一般常用操作有哪些? 当然我们可以从编程角度来:
创建、读、写一个文件,列出文件夹中的文件及文件夹列表,删除文件夹,删除目录,移动文件或文件夹,重命名文件或文件夹。
同样,这里我们就依葫芦画瓢跑起个程序来:
启动eclipse,新建Hadoop项目,名称MyDFSTest,新建类DFSTest,点击确定,然后同样工程属性Configure BuildPath中把 build/ivy/lib/Hadoop下的所有jar包都引用进来。「这里就不详细截图了,可以参考前一节中的内容」
在类中,添加main函数:
public static void main(String[] args) {
}
也可以在添加类时,勾选上创建main,则会自动添加上。
在Main函数中添加以下内容:
try {
Configuration conf = new Configuration();
conf.set("fs.default.name", "hdfs://localhost:9000");
FileSystem hdfs = FileSystem.get(conf);
Path path = new Path("in/test3.txt");
FSDataOutputStream outputStream = hdfs.create(path);
byte[] buffer = " 你好Hello".getBytes();
outputStream.write(buffer, 0, buffer.length);
outputStream.flush();
outputStream.close();
System.out.println("Create OK");
} catch (IOException e) {
e.printStackTrace();
}
直接添加进来会报错,然后需要添加一些引用才行:
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
在没有错误后,点击工具条上的运行, 但这次跟前次不一样,选择Run as Java Application。然后,就可以在输出框中看到Create OK的字样了,表明程序运行成功。
这段代码的意思是在in文件夹下,创建test3.txt,里面的内容是"你好Hello"。 在运行完后,我们可以到eclipse的Project Explorer中查看是否有这文件以及内容。同样也可以用命令行查看$bin/hadoop fs -ls in。
好了,第一个操作DFS的程序跑起来了,那其它功能只要套上相应的处理类就可以了。
为了方便查找操作,我们列举了张表:
操作说明 |
操作本地文件 |
操作DFS文件 |
主要命名空间 |
java.io.File java.io.FileInputStream java.io.FileOutputStream |
org.apache.hadoop.conf.Configuration org.apache.hadoop.fs.FileSystem org.apache.hadoop.fs.Path org.apache.hadoop.fs.FSDataInputStream; org.apache.hadoop.fs.FSDataOutputStream |
初使化对象 |
new File(路径); |
Configuration FileSystem hdfs |
创建文件 |
File.createNewFile(); |
FSDataOutputStream = hdfs.create(path) FSDataOutputStream.write( buffer, 0, buffer.length); |
创建文件夹 |
File.mkdir() |
hdfs.mkdirs(Path); |
读文件 |
new FileInputStream(); FileInputStream.read(buffer) |
FSDataInputStream = hdfs.open(path); FSDataInputStream.read(buffer); |
写文件 |
FileOutputStream.write( buffer, 0, buffer.length); |
FSDataOutputStream = hdfs.append(path) FSDataOutputStream.write( buffer, 0, buffer.length); |
删除文件(夹) |
File.delete() |
FileSystem.delete(Path) |
列出文件夹内容 |
File.list(); |
FileSystem.listStatus() |
重命令文件(夹) |
File.renameTo(File) |
FileSystem.rename(Path, Path) |
有了这张表,以后不怕了,代码搬搬即可。
接下来换个话题。
本人主要从事.net开发的,所以对于java上,还是有点生。所以接下来半章中,简要的把JAVA的学习列一列。
JAVA和.net现在从语言角度看,的确有很多相似之处。但也有不同之处,这就是我们要学的。
在.Net中,主要有dll和exe, dll为类库, exe为可执行程序,在exe中有唯一的main函数,作为函数入口。dll 类库是无法执行的,exe可以双击运行,也可以命令行执行。编译后,.net会把所有定义的类编译进exe或dll中,一个工程产出文件就是一个。
在JAVA中,jar对应的类库,可以被别人调用。exe就不存在了。一个工程编译后,产出物是一堆的.class文件,在开发中每一个定义的类,都会被编译成这个.class文件。而且一个.java文件中,不能定义多个*类(嵌套类是可以的),且文件名与类名必须相同,文件所以的目录必须和命名空间相同。所以编译后,可以讲一个.java文件将会编译成一个.class文件,且有与原先的目录相同。
也就是说,java有点像散装的一样,产物就是一堆的.class文件。 那jar文件呢,简单的说,就是一个zip包,把一堆的.class文件打包成一个压缩包。
同时,一个工程中,支持多个main函数,即多个入口。
说了一堆,还不如实践一下:
在eclipse中,创建一个JAVA project 取名为JAVAStudy。
然后创建两个类,没有目录的,ch1 ch2 再创建一个包叫pkg1,在这个包下创建一个类ch3:
然后,每个类下都建一个main函数,内容打印类名:
public static void main(String[] args) {
System.out.println(ch1.class.getName());
}
注意,复制到ch2 ch3中后要改一下里面的类名。
然后每当你切换到一个新的类代码中,点击运行,都会提示Run As ,都选Java Application。 然后就可以看到结果了,每个类都可以作为入口执行。
OK,程序好了,如何发布呢,或如何从命令行运行呢?
我们进入目录先看一下:
进入工程目录,可以看到有src和bin,进入bin,就可以看到一个个的class文件了,的确跟前面描述一样,目录与代码相同结构。
输入java ch1 就可以看到结果了。执行ch3时,注意中间不是斜线,而是点,因为这里输入的是命名空间+类名,而不是class文件的路径。
如果不在这个目录执行,看到会报错,或命名空间输错了,也是这个错。
如果我就在这里想执行呢? 可以这样:
利用classpath指定class的路径。
如何打成jar包:
进入bin目录:
$cd bin
$jar cvf test.jar ch1.class ch2.class pkg1/.class
然后在bin目录下就可以看到test.jar文件了。
如何执行jar呢,为了防止与里面的class文件冲突,我们将test.jar复制到外面来:
$cp test.jar ../
$cd ..
再执行:
$java –classpath test.jar ch1
同样,输入classpath就可以搞定了的。
了解了这些后,我们又可以做个试验证了。 第一章中我们运行hadoop中Helloword时,是调用了example的jar包。所以这里我们可以把上一章的程序也来打个jar包,试下是否能运行:
$cd ~/workspace/MyHelloWorld //进入HelloWorld代码目录
$cd bin
$jar cvf test.jar *.class //打上jar包
$cp test.jar ../../hadoop-0.20.2 //将jar包复制到hadoop目录下
$cd ../../hadoop-0.20.2
$bin/start-all.sh //启动hadoop
$bin/hadoop test.jar WordCount in out //运行我们写的程序
然后就可以看到与之前一样的结果了。
Hadoop学习笔记(5) ——编写HelloWorld(2)的更多相关文章
-
Go学习笔记(二):编写 HelloWorld 程序
//Hello.go代码 package main import "fmt" func main(){ fmt.Printf("Hello, world!This is ...
-
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclip ...
-
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...
-
Hadoop学习笔记(9) ——源码初窥
Hadoop学习笔记(9) ——源码初窥 之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例.接下来其实就有两条路可走了,一条是继续 ...
-
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程 从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...
-
Hadoop学习笔记(10) ——搭建源码学习环境
Hadoop学习笔记(10) ——搭建源码学习环境 上一章中,我们对整个hadoop的目录及源码目录有了一个初步的了解,接下来计划深入学习一下这头神象作品了.但是看代码用什么,难不成gedit?,单步 ...
-
[转帖]hadoop学习笔记:hadoop文件系统浅析
hadoop学习笔记:hadoop文件系统浅析 https://www.cnblogs.com/sharpxiajun/archive/2013/06/15/3137765.html 1.什么是分布式 ...
-
Hadoop学习笔记—22.Hadoop2.x环境搭建与配置
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...
-
Hadoop学习笔记(2)
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...
随机推荐
-
纯Swift编写的仿“随遇”应用源码
纯Swift编写的仿“随遇”App概述 此项目是为了巩固Swift掌握而编写的,素材均来自“随遇”官方App 用Storyboard+Xib+Autolayout的方式来实现UI部分 由于项目不复杂, ...
-
Haproxy+Keepalived高可用负载均衡详细配置
本文所使用的环境: 10.6.2.128 centos6.5 10.6.2.129 centos6.5 VIP 为10.6.2.150 要实现的目标: 实现10.6.2.128和10.6 ...
-
jquery this 与javascript的this
<div class="list"> <table> <thead> <tr> <th width="110&quo ...
-
DIY Ruby CPU 分析——Part III
[编者按]作者 Emil Soman,Rubyist,除此之外竟然同时也是艺术家,吉他手,Garden City RubyConf 组织者.本文是 DIY Ruby CPU Profiling 的第二 ...
-
Sublime Text使用手记
1.Package Control 输入python 命令安装,打开控制台输入下方代码运行即可.控制台打开可使用快捷键Ctrl+~ 或菜单栏中View> Show Console,可访问Pack ...
-
KVC 和 OC字典
KVC(键值编码)和OC 字典很相似,都是键值存储.但是OC 字典比较灵活,它是一种映射. [dict setObject:<#(id)#> forKey:<#(id<NSCo ...
-
linux之文本编辑器
[目标] 管理员在进行系统操作的时候,不可避免地会对文本进行修改,如进行各种服务程序配置文件的修改,使程序对用户提供不同的服务效果.在本章我们向大家介绍Linux上常见的编辑器ed.vi.emacs, ...
-
JavaScript 数值Number类型详解
Number 问题 如果下面的问题你都能回答对了吗? 0.1 + 0.2 == 0.3 成立吗? .e-5 表示多少? 怎么表示8进制? 怎么转换进制? 如何将字符串转换成数值或整数?反过来呢?十六进 ...
-
Linux下C语言的调试 - gdb
调试是每个程序员都会面临的问题. 如何提高程序员的调试效率, 更好更快地定位程序中的问题从而加快程序开发的进度, 是大家共同面对的问题. 可能Windows用户顺口就会说出:用VC呗 :-) , 它提 ...
-
cocos creator 动态创建精灵
var node = new cc.Node();var sprite = node.addComponent(cc.Sprite);sprite.spriteFrame = new cc.Sprit ...