hadoop应用开发技术详解

《大数据技术丛书：Hadoop应用开发技术详解》共12章。第1～2章详细地介绍了Hadoop的生态系统、关键技术以及安装和配置；第3章是 MapReduce的使用入门，让读者了解整个开发过程；第4～5章详细讲解了分布式文件系统HDFS和Hadoop的文件I/O；第6章分析了 MapReduce的工作原理；第7章讲解了如何利用Eclipse来编译Hadoop的源代码，以及如何对Hadoop应用进行测试和调试；第8～9章细致地讲解了MapReduce的开发方法和高级应用；第10～12章系统地讲解了Hive、HBase和Mahout。

书名

hadoop应用开发技术详解

又名

hadoop应用开发详解

作者

刘刚

ISBN

9787111452447

类别

大数据

页数

405

定价

出版社

机械工业出版社

出版时间

2014-01-01

装帧

平装

1图书信息编辑

书　名： Hadoop应用开发技术详解^[1]

作　者：刘刚

出版社：机械工业出版社

出版时间： 2014-01-01

I S B N ： 9787111452447

定　价：￥79.00

2图书目录编辑

前言
　　第1章 Hadoop概述
　　1.1 Hadoop起源
　　1.1.1 Google与Hadoop模块
　　1.1.2 为什么会有Hadoop
　　1.1.3 Hadoop版本介绍
　　1.2 Hadoop生态系统
　　1.3 Hadoop常用项目介绍
　　1.4 Hadoop在国内的应用
　　1.5 本章小结
　　第2章 Hadoop安装
　　2.1 Hadoop环境安装配置
　　2.1.1 安装VMware
　　2.1.2 安装Ubuntu
　　2.1.3 安装VMwareTools
　　2.1.4 安装JDK
　　2.2 Hadoop安装模式
　　2.2.1 单机安装
　　2.2.2 伪分布式安装
　　2.2.3 分布式安装
　　2.3 如何使用Hadoop
　　2.3.1 Hadoop的启动与停止
　　2.3.2 Hadoop配置文件
　　2.4 本章小结
　　第3章 MapReduce快速入门
　　3.1 WordCount实例准备开发环境
　　3.1.1 使用Eclipse创建一个Java工程
　　3.1.2 导入Hadoop的JAR文件
　　3.2 MapReduce代码的实现
　　3.2.1 编写WordMapper类
　　3.2.2 编写WordReducer类
　　3.2.3 编写WordMain驱动类
　　3.3 打包、部署和运行
　　3.3.1 打包成JAR文件
　　3.3.2 部署和运行
　　3.3.3 测试结果
　　3.4 本章小结
　　第4章 Hadoop分布式文件系统详解
　　4.1 认识HDFS
　　4.1.1 HDFS的特点
　　4.1.2 Hadoop文件系统的接口
　　4.1.3 HDFS的Web服务
　　4.2 HDFS架构
　　4.2.1 机架
　　4.2.2 数据块
　　4.2.3 元数据节点
　　4.2.4 数据节点
　　4.2.5 辅助元数据节点
　　4.2.6 名字空间
　　4.2.7 数据复制
　　4.2.8 块备份原理
　　4.2.9 机架感知
　　4.3 Hadoop的RPC机制
　　4.3.1 RPC的实现流程
　　4.3.2 RPC的实体模型
　　4.3.3 文件的读取
　　4.3.4 文件的写入
　　4.3.5 文件的一致模型
　　4.4 HDFS的HA机制
　　4.4.1 HA集群
　　4.4.2 HA架构
　　4.4.3 为什么会有HA机制
　　4.5 HDFS的Federation机制
　　4.5.1 单个NameNode的HDFS架构的局限性
　　4.5.2 为什么引入Federation机制
　　4.5.3 Federation架构
　　4.5.4 多个名字空间的管理问题
　　4.6 Hadoop文件系统的访问
　　4.6.1 安全模式
　　4.6.2 HDFS的Shell访问
　　4.6.3 HDFS处理文件的命令
　　4.7 JavaAPI接口
　　4.7.1 HadoopURL读取数据
　　4.7.2 FileSystem类
　　4.7.3 FileStatus类
　　4.7.4 FSDataInputStream类
　　4.7.5 FSDataOutputStream类
　　4.7.6 列出HDFS下所有的文件
　　4.7.7 文件的匹配
　　4.7.8 PathFilter对象
　　4.8 维护HDFS
　　4.8.1 追加数据
　　4.8.2 并行复制
　　4.8.3 升级与回滚
　　4.8.4 添加节点
　　4.8.5 删除节点
　　4.9 HDFS权限管理
　　4.9.1 用户身份
　　4.9.2 权限管理的原理
　　4.9.3 设置权限的Shell命令
　　4.9.4 超级用户
　　4.9.5 HDFS权限配置参数
　　4.10 本章小结
　　第5章 Hadoop文件I/O详解
　　5.1 Hadoop文件的数据结构
　　5.1.1 SequenceFile存储
　　5.1.2 MapFile存储
　　5.1.3 SequenceFile转换为MapFile
　　5.2 HDFS数据完整性
　　5.2.1 校验和
　　5.2.2 数据块检测程序
　　5.3 文件序列化
　　5.3.1 进程间通信对序列化的要求
　　5.3.2 Hadoop文件的序列化
　　5.3.3 Writable接口
　　5.3.4 WritableComparable接口
　　5.3.5 自定义Writable接口
　　5.3.6 序列化框架
　　5.3.7 数据序列化系统Avro
　　5.4 Hadoop的Writable类型
　　5.4.1 Writable类的层次结构
　　5.4.2 Text类型
　　5.4.3 NullWritable类型
　　5.4.4 ObjectWritable类型
　　5.4.5 GenericWritable类型
　　5.5 文件压缩
　　5.5.1 Hadoop支持的压缩格式
　　5.5.2 Hadoop中的编码器和解码器
　　5.5.3 本地库
　　5.5.4 可分割压缩LZO
　　5.5.5 压缩文件性能比较
　　5.5.6 Snappy压缩
　　5.5.7 gzip、LZO和Snappy比较
　　5.6 本章小结
　　第6章 MapReduce工作原理
　　6.1 MapReduce的函数式编程概念
　　6.1.1 列表处理
　　6.1.2 Mapping数据列表
　　6.1.3 Reducing数据列表
　　6.1.4 Mapper和Reducer如何工作
　　6.1.5 应用实例：词频统计
　　6.2 MapReduce框架结构
　　6.2.1 MapReduce模型
　　6.2.2 MapReduce框架组成
　　6.3 MapReduce运行原理
　　6.3.1 作业的提交
　　6.3.2 作业初始化
　　6.3.3 任务的分配
　　6.3.4 任务的执行
　　6.3.5 进度和状态的更新
　　6.3.6 MapReduce的进度组成
　　6.3.7 任务完成
　　6.4 MapReduce容错
　　6.4.1 任务失败
　　6.4.2 TaskTracker失败
　　6.4.3 JobTracker失败
　　6.4.4 子任务失败
　　6.4.5 任务失败反复次数的处理方法
　　6.5 Shuffle阶段和Sort阶段
　　6.5.1 Map端的Shuffle
　　6.5.2 Reduce端的Shuffle
　　6.5.3 Shuffle过程参数调优
　　6.6 任务的执行
　　6.6.1 推测执行
　　6.6.2 任务JVM重用
　　6.6.3 跳过坏的记录
　　6.6.4 任务执行的环境
　　6.7 作业调度器
　　6.7.1 先进先出调度器
　　6.7.2 容量调度器
　　6.7.3 公平调度器
　　6.8 自定义Hadoop调度器
　　6.8.1 Hadoop调度器框架
　　6.8.2 编写Hadoop调度器
　　6.9 YARN介绍
　　6.9.1 异步编程模型
　　6.9.2 YARN支持的计算框架
　　6.9.3 YARN架构
　　6.9.4 YARN工作流程
　　6.10 本章小结
　　第7章 Eclipse插件的应用
　　7.1 编译Hadoop源码
　　7.1.1 下载Hadoop源码
　　7.1.2 准备编译环境
　　7.1.3 编译common组件
　　7.2 Eclipse安装MapReduce插件
　　7.2.1 查找MapReduce插件
　　7.2.2 新建一个Hadooplocation
　　7.2.3 Hadoop插件操作HDFS
　　7.2.4 运行MapReduce的驱动类
　　7.3 MapReduce的Debug调试
　　7.3.1 进入Debug运行模式
　　7.3.2 Debug调试具体操作
　　7.4 单元测试框架MRUnit
　　7.4.1 认识MRUnit框架
　　7.4.2 准备测试案例
　　7.4.3 Mapper单元测试
　　7.4.4 Reducer单元测试
　　7.4.5 MapReduce单元测试
　　7.5 本章小结
　　第8章 MapReduce编程开发
　　8.1 WordCount案例分析
　　8.1.1 MapReduce工作流程
　　8.1.2 WordCount的Map过程
　　8.1.3 WordCount的Reduce过程
　　8.1.4 每个过程产生的结果
　　8.1.5 Mapper抽象类
　　8.1.6 Reducer抽象类
　　8.1.7 MapReduce驱动
　　8.1.8 MapReduce最小驱动
　　8.2 输入格式
　　8.2.1 InputFormat接口
　　8.2.2 InputSplit类
　　8.2.3 RecordReader类
　　8.2.4 应用实例：随机生成100个小数并求最大值
　　8.3 输出格式
　　8.3.1 OutputFormat接口
　　8.3.2 RecordWriter类
　　8.3.3 应用实例：把首字母相同的单词放到一个文件里
　　8.4 压缩格式
　　8.4.1 如何在MapReduce中使用压缩
　　8.4.2 Map作业输出结果的压缩
　　8.5 MapReduce优化
　　8.5.1 Combiner类
　　8.5.2 Partitioner类
　　8.5.3 分布式缓存
　　8.6 辅助类
　　8.6.1 读取Hadoop配置文件
　　8.6.2 设置Hadoop的配置文件属性
　　8.6.3 GenericOptionsParser选项
　　8.7 Streaming接口
　　8.7.1 Streaming工作原理
　　8.7.2 Streaming编程接口参数
　　8.7.3 作业配置属性
　　8.7.4 应用实例：抓取网页的标题
　　8.8 本章小结
　　第9章 MapReduce高级应用
　　9.1 计数器
　　9.1.1 默认计数器
　　9.1.2 自定义计数器
　　9.1.3 获取计数器
　　9.2 MapReduce二次排序
　　9.2.1 二次排序原理
　　9.2.2 二次排序的算法流程
　　9.2.3 代码实现
　　9.3 MapReduce中的Join算法
　　9.3.1 Reduce端Join
　　9.3.2 Map端Join
　　9.3.3 半连接SemiJoin
　　9.4 MapReduce从MySQL读写数据
　　9.4.1 读数据
　　9.4.2 写数据
　　9.5 Hadoop系统调优
　　9.5.1 小文件优化
　　9.5.2 Map和Reduce个数设置
　　9.6 本章小结
　　第10章数据仓库工具Hive
　　10.1 认识Hive
　　10.1.1 Hive工作原理
　　10.1.2 Hive数据类型
　　10.1.3 Hive的特点
　　10.1.4 Hive下载与安装
　　10.2 Hive架构
　　10.2.1 Hive用户接口
　　10.2.2 Hive元数据库
　　10.2.3 Hive的数据存储
　　10.2.4 Hive解释器
　　10.3 Hive文件格式
　　10.3.1 TextFile格式
　　10.3.2 SequenceFile格式
　　10.3.3 RCFile文件格式
　　10.3.4 自定义文件格式
　　10.4 Hive操作
　　10.4.1 表操作
　　10.4.2 视图操作
　　10.4.3 索引操作
　　10.4.4 分区操作
　　10.4.5 桶操作
　　10.5 Hive复合类型
　　10.5.1 Struct类型
　　10.5.2 Array类型
　　10.5.3 Map类型
　　10.6 Hive的JOIN详解
　　10.6.1 JOIN操作语法
　　10.6.2 JOIN原理
　　10.6.3 外部JOIN
　　10.6.4 Map端JOIN
　　10.6.5 JOIN中处理NULL值的语义区别
　　10.7 Hive优化策略
　　10.7.1 列裁剪
　　10.7.2 MapJoin操作
　　10.7.3 GroupBy操作
　　10.7.4 合并小文件
　　10.8 Hive内置操作符与函数
　　10.8.1 字符串函数
　　10.8.2 集合统计函数
　　10.8.3 复合类型操作
　　10.9 Hive用户自定义函数接口
　　10.9.1 用户自定义函数UDF
　　10.9.2 用户自定义聚合函数UDAF
　　10.10 Hive的权限控制
　　10.10.1 角色的创建和删除
　　10.10.2 角色的授权和撤销
　　10.10.3 超级管理员权限
　　10.11 应用实例：使用JDBC开发Hive程序
　　10.11.1 准备测试数据
　　10.11.2 代码实现
　　10.12 本章小结
　　第11章开源数据库HBase
　　11.1 认识HBase
　　11.1.1 HBase的特点
　　11.1.2 HBase访问接口
　　11.1.3 HBase存储结构
　　11.1.4 HBase存储格式
　　11.2 HBase设计
　　11.2.1 逻辑视图
　　11.2.2 框架结构及流程
　　11.2.3 Table和Region的关系
　　11.2.4 -ROOT-表和.META.表
　　11.3 关键算法和流程
　　11.3.1 Region定位
　　11.3.2 读写过程
　　11.3.3 Region分配
　　11.3.4 RegionServer上线和下线
　　11.3.5 Master上线和下线
　　11.4 HBase安装
　　11.4.1 HBase单机安装
　　11.4.2 HBase分布式安装
　　11.5 HBase的Shell操作
　　11.5.1 一般操作
　　11.5.2 DDL操作
　　11.5.3 DML操作
　　11.5.4 HBaseShell脚本
　　11.6 HBase客户端
　　11.6.1 JavaAPI交互
　　11.6.2 MapReduce操作HBase
　　11.6.3 向HBase中写入数据
　　11.6.4 读取HBase中的数据
　　11.6.5 Avro、REST和Thrift接口
　　11.7 本章小结
　　第12章 Mahout算法
　　12.1 Mahout的使用
　　12.1.1 安装Mahout
　　12.1.2 运行一个Mahout案例
　　12.2 Mahout数据表示
　　12.2.1 偏好Perference类
　　12.2.2 数据模型DataModel类
　　12.2.3 Mahout链接MySQL数据库
　　12.3 认识Taste框架
　　12.4 Mahout推荐器
　　12.4.1 基于用户的推荐器
　　12.4.2 基于项目的推荐器
　　12.4.3 SlopeOne推荐策略
　　12.5 推荐系统
　　12.5.1 个性化推荐
　　12.5.2 商品推荐系统案例
　　12.6 本章小结
　　附录A Hive内置操作符与函数
　　附录B HBase默认配置解释^[1] 　附录C Hadoop三个配置文件的参数含义说明

hadoop应用开发技术详解的更多相关文章

《Hadoop应用开发技术详解》
<Hadoop应用开发技术详解> 基本信息作者: 刘刚丛书名: 大数据技术丛书出版社:机械工业出版社 ISBN:9787111452447 上架时间:2014-1-10 出版日期:2 ...
Python开发技术详解（视频+源码+文档）
Python, 是一种面向对象.直译式计算机程序设计语言.Python语法简捷而清晰,具有丰富和强大的类库.它常被昵称为胶水语言,它能够很轻松的把用其他语言制作的各种模块(尤其是C/C++)轻松地联结 ...
Python开发技术详解PDF
Python开发技术详解(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1F5J9mFfHKgwhkC5KuPd0Pw 提取码:xxy3 复制这段内容后打开百度网盘手 ...
Windows驱动——读书笔记《Windows驱动开发技术详解》
=================================版权声明================================= 版权声明:原创文章谢绝转载请通过右侧公告中的“联系邮 ...
《Tomcat与Java Web开发技术详解》思维导图
越想构建上层建筑,就越觉得底层基础很重要.补课系列. 书是良心书,就是太基础了,正适合补课. [纯文字版] Tomcat与Java Web开发技术详解 Servlet Servlet的生命周期初始化 ...
《python开发技术详解》|百度网盘免费下载|Python开发入门篇
<python开发技术详解>|百度网盘免费下载|Python开发入门篇提取码:2sby 内容简介 Python是目前最流行的动态脚本语言之一.本书共27章,由浅入深.全面系统地介绍了利 ...
《Android底层接口与驱动开发技术详解》digest
第一章:IDE:Eclipse ADT for java developer其它: Apache Ant Java SE Development Kit5或6 Linux和Mac上使用Apache A ...
PHP+MySQL开发技术详解—学习笔记
1. PHP is Hypertext Preproocessor. 2. Hello World: <?php Echo ‘Hello World!’; ?> 3. ...
《TomCat与Java Web开发技术详解》（第二版）第八章节的学习总结 -- 访问mysql
终于学到如何访问Mysql了 1. 可以看看此章节提供的sql脚本,以后可以照着写了.此外,对于Mysql如何使用,最好的地方就是其官网介绍了.http://dev.mysql.com/doc/ref ...

随机推荐

PHP 设计模式笔记与总结（3）SPL 标准库
SPL 库的使用(PHP 标准库) 1. SplStack,SplQueue,SplHeap,SplFixedArray 等数据结构类 ① 栈(SplStack)(先进后出的数据结构) index.p ...
MFC中使用Duilib--2
在上一篇文章"MFC中使用Duilib--1"中, 没有用到资源文件,即xml,本篇讲怎样加载文件. 1. 在exe输出目录下,创建一个skin目录,里面放入需要用到的图片文件, ...
CSS3技巧：利用css3径向渐变做一张优惠券（转）
在很多购物网站上都能看到优惠券,代金券,什么什么的券,但基本都是图片直接放上去,那么你有没有想过css来做一个呢,反正我是这样想过.那么你怎么做呢,切图做背景平铺边缘,嗯,有这样想过,如今css3技术 ...
如何向投资人展示——How to Present to Investors
著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处.作者:茶叶末链接:http://www.zhihu.com/question/23638879/answer/34525204来源: ...
zoj 1109 zoj 1109 Language of FatMouse（字典树）
好开心,手动自己按照字典树的思想用c写了一个优化后的trie字典树,就是用链表来代替26个大小的字符数组.完全按照自己按照自己的想法打的,没有参考如何被人的代码.调试了一天,居然最后错在一个小问题上, ...
mybatis mysql 批量插入
场景描述: 使用mybatis操作mysql数据库,进行批量插入数据,提高代码质量和执行效率. 环境: mybatis spring mysql java xml配置文件 <insert id ...
安装apache 后,找不到服务,解决办法
在命令行进入安装apache的bin目录下,在输入命令:httpd.exe -k install -n Apache版本号回车即可注意:要在管理员的身份下进入cmd (C:\Windows\SysW ...
【Linux高级驱动】网卡驱动分析
两个重要的结构体简单介绍 *sk_buff 如果把网络传输看成是运送货物的话,那么sk_buff就是这个“货物”了,所有经手这个货物的人都要干点什么事儿,要么加个包装,要么印个戳儿等等.收货的时候就要 ...
JSP常用Form表单控件
[easyui]--combobox--赋值和获取选中的值 /初始化下拉选框 $('#communityIdDiv').combobox({ url:basepath+"pushContro ...
vs2010 assistx安装教程
参照此篇教程. 安装目录你可能找不到,因为那些文件是系统隐藏文件,打开隐藏即可. 然后,将此.exe安装到上面的目录下,然后,还需要进行一个破解,即需要将从网上下载的补丁放进去. 把目录下的VA_X. ...