一、简介概述
1、什么是Hadoop
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
Hadoop是基于java语言开发,具有很好的跨平台的特性,并且可以部署在廉价的计算机集群中
Hadoop的核心是分布式文件系统HDFS(Hadoop Distribute File System)和MapReduce,安装完Hadoop默认就已经安装了HDFS和Mapreduce
Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力
几乎所有主流厂商都围绕Hadoop提供开发工具,开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等都支持Hadoop
官方网址:http://hadoop.apache.org/
2、Hadoop图标
2、Hadoop的特性
Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:
高可靠性
高效性
高扩展性
高容错性
低成本
运行在linux平台上
支持多种编程语言
3、应用广泛
互联网居多,雅虎、facebook(用于平台处理、推荐系统和数据仓库等)、百度、淘宝、网易、华为、中国移动等,其中,淘宝的Hadoop集群比较大
4、企业应用架构
5、版本
1)版本演变
2)图示
3)各类版本
Apache Hadoop
Hortonworks
Cloudera(CDH:Cloudera Distribution Hadoop)
MapR
6、各个版本区别
二、Hadoop项目结构
在不断丰富发展,现已成为一个丰富的Hadoop生态系统
1、结构图
2、模块及相关项目
安装部署请见:Hadoop2-认识Hadoop大数据处理架构-单机部署
HDFS原理:Hadoop4-HDFS分布式文件系统原理
参考:http://dblab.xmu.edu.cn/post/1089/
参考:https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Active+Release+Lines