根本作用:任务的分离,结果的汇总。
定义:帮助用户在不必详细了解分布式底层细节的情况下,开发分布式程序。充分的利用集群的威力进行高速运算和存储。
原理:Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称 HDFS。
核心设计:HDFS 和 MapReduce。 HDFS 为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
优点和特点:1. 高可靠性。2. 高扩展性。3. 高效性。4. 高容错性。5. 低成本。
文件操作:HDFS 并不是一个万能的文件系统。它的主要目的是支持以流的形式访问写入的大型文件。
核心组件: 1. GFS(Google File System)一个分布式文件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供了一个统一的文件系统API接口。
2. MapReduce 大多数的分布式运算可以抽象为 MapReduce 操作。Map 是把输入 Input 分解成中间的 Key/Value对。Reduce 把 Key/Value 合成最终输出 Output。这两个函数由程序员提供非系统,下层设施把 Map 和 Reduce 操作分布在集群上运行,并把结果存储在 GFS 上。
3. BigTable 一个大型分布式数据库,这个数据库不是关系型数据库。是一个巨大的表格,用来存储结构化的数据。