Hadoop权威指南(第2版).

时间:2014-10-20 02:54:47
【文件属性】:

文件名称:Hadoop权威指南(第2版).

文件大小:5.78MB

文件格式:RAR

更新时间:2014-10-20 02:54:47

Hadoop 权威指南 第二版

Hadoop是项目的总称,起源于作者儿子的一只玩具大象的名字。主要是由HDFS、MapReduce和Hbase组成。   HDFS是Google File System(GFS)的开源实现。   MapReduce是Google MapReduce的开源实现。   HBase是Google BigTable的开源实现。   这个分布式框架很有创造性,而且有极大的扩展性,使得Google在系统吞吐量上有很大的竞争力。因此Apache基金会用Java实现了一个开源版本,支持Fedora、Ubuntu等Linux平台。雅虎和硅谷风险投资公司Benchmark Capital 6月28日联合宣布,他们将联合成立一家名为Hortonworks的新公司,接管被广泛应用的数据分析软件Hadoop的开发工作。   Hadoop实现了HDFS文件系统和MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。   目前Release版本是0.20.203.0。还不成熟,但是已经集群规模已经可以达到4000个节点,是由Yahoo!实验室中构建的。下面是此集群的相关数据:   · 4000 节点   · 2 x quad core Xeons@2.5ghz per 节点   · 4 x 1TB SATA Disk per 节点   · 8G RAM per 节点   · 千兆带宽 per 节点   · 每机架有40个节点   · 每个机架有4千兆以太网上行链路   · Redhat Linux AS4 ( Nahant update 5 )   · Sun Java JDK1.6.0_05 - b13   · 所以整个集群有30000多个CPU,近16PB的磁盘空间!   HDFS把节点分成两类:NameNode和DataNode。NameNode是唯一的,程序与之通信,然后从DataNode上存取文件。这些操作是透明的,与普通的文件系统API没有区别。   MapReduce则是JobTracker节点为主,分配工作以及负责和用户程序通信。   HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算。   Hadoop也跟其他云计算项目有共同点和目标:实现海量数据的计算。而进行海量计算需要一个稳定的,安全的数据容器,才有了Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)。   HDFS通信部分使用org.apache.hadoop.ipc,可以很快使用RPC.Server.start()构造一个节点,具体业务功能还需自己实现。针对HDFS的业务则为数据流的读写,NameNode/DataNode的通信等。   MapReduce主要在org.apache.hadoop.mapred,实现提供的接口类,并完成节点通信(可以不是hadoop通信接口),就能进行MapReduce运算。   目前这个项目还在进行中,还没有到达1.0版本,和Google系统的差距也非常大,但是进步非常快,值得关注。   另外,这是云计算(Cloud Computing)的初级阶段的实现,是通向未来的桥梁。


【文件预览】:
Hadoop权威指南(第2版)
----淘宝热卖.url(380B)
----Hadoop权威指南(第2版).pdf(7.66MB)
----河源下载站-cngr.cn.url(110B)

网友评论

  • 英文版,很不错。
  • 英文版的,很经典
  • 内容比较全面、实用,很好的参考资料
  • 很好的参考资料。
  • 确定为英文版,很清晰
  • 大家注意,这是个英文版的,如果需要中文版的,请不要下载这个了
  • 英文版的,看不太懂,不过谢谢了
  • 中文版翻译的不怎么样,刚好找这本英文版的电子书对照着看
  • 英文的啊。应该写清楚啊
  • 分布式系统入门的最好指南, 看之前最好熟悉linux。
  • 很不错,非常清晰~
  • 内容比较全面、实用,英文好的人可以参考看了。
  • 还可以,影印的还算清晰。