2.1概述
2.1.1Hadoop简介
- Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
- Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中
- Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce
- Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力
- 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop
2.1.2Hadoop发展简史
2.1.3Hadoop的特性
2.1.4Hadoop的应用现状
2.2Hadoop项目结构
2.3Hadoop的安装与使用
2.3.1Hadoop安装之前的预备知识
安装参考: http://dblab.xmu.edu.cn/blog/285/
2.3.2安装Linux虚拟机
2.3.3安装双操作系统
2.3.4Hadoop的安装与使用
参考:http://dblab.xmu.edu.cn/blog/install-hadoop/
-
创建hadoop用户
-
SSH登陆权限设置
-
安装Java环境
-
单机安装配置
-
伪分布式安装配置
2.4Hadoop集群的部署与使用
2.4.1集群节点类型
2.4.2集群硬件配置
2.4.3集群规模
2.4.4集群网络拓扑
2.4.5集群的建立与安装
2.4.6集群基准测试
2.4.7在云计算环境中使用Hadoop