[O'Reilly精品图书推荐]Hadoop生态系统

时间:2021-11-25 09:07:16

书名:Hadoop生态系统

作者Kevin SittoMarshall Presser 著

译者:陈新, 唐晓 译

国内出版社:中国电力出版社

出版时间:2016年10月

页数:109

书号:978-7-5123-9598-5

原版书书名:Field Guide to Hadoop

原版书出版商:O'Reilly Media



内容介绍


如果你的组织即将开始进入大数据的世界,那么可能不仅需要决定Apache Hadoop这个平台是否适合使用,还需要决定Hadoop中哪些组件最适合完成你的任务。本书将帮助你更容易地完成这项工作。本书将Hadoop的生态系统分解为一个个简略的、容易理解的小段内容,以便读者可以快速理解Hadoop项目、子项目及其相关技术是如何一起工作的。

本书每一章都介绍了不同的主题(例如核心技术或数据传输),并且解释了为什么特定组件适用或不适用特定的需求。对于数据处理来说,使用Hadoop是一个全新的挑战,但如果有了这本便利的参考书,你将很容易领会使用Hadoop的精妙所在。

主要包括如下主题:

  • 核心技术。Hadoop分布式文件系统(HDFS)、MapReduce、YARN和Spark。

  • 数据库和数据管理。Cassandra、HBase、MongoDB和Hive。

  • 序列化。Avro、JSON和Parquet。

  • 管理和监视。Puppet、Chef、Zookeeper和Oozie。

  • 分析辅助。Pig、Mahout和MLLib。

  • 数据传输。Scoop、Flume、distcp和Storm。

  • 安全、访问控制和审计。Sentry、Kerberos和Knox。

  • 云计算和虚拟化。Serengeti、Docker和Whirr。



作者介绍


Kevin Sitto是Pivotal Software公司的领域解决方案工程师,他为用户提供咨询服务,帮助用户理解和描述他们的大数据需求。

他和妻子以及两个孩子住在Maryland,在没有撰写关于大数据书籍的时候,他经常享受制作自酿的啤酒的乐趣。

Marshall Presser是Pivotal Software公司的领域首席技术官,住在弗吉尼杰州麦克莱恩市。除了帮助用户使用Greenplum数据库解决复杂的分析问题之外,他领导了Hadoop Vitual 领域团队,工作关注于将Hadoop与关系型数据库整合。

在来到Pivotal公司(之前是Greenplum公司)之前,他在Oracle工作了12年,专门从事于高可用性、业务连续性、集群、并行数据库技术、灾难恢复和大规模数据库系统。Marshall之前还为许多硬件厂商实现集群和其他并行体系架构。他的背景包括并行计算和操作系统/编译器开发,同时还是健康医疗机构、金融服务机构、联邦*和州*的私人顾问。

Marshall获得了Pennsylvania大学的数学学士学位和金融与统计学硕士学位,同时还获取了伦敦Imperial大学的计算机理科硕士。


[O'Reilly精品图书推荐]Hadoop生态系统