Hadoop中的一些概念

时间:2022-03-30 14:54:08
Hadoop:一个分布式系统架构,充分利用集群的威力进行高速运算和存储 ZooKeeper: 是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。                     是Hadoop和Hbase的重要组件。 是的   的地方 地方        Zookeeper集群的职责 
      1、负责监控整个hbase集群中节点的状态和通信。 
      2、管理hbase 集群的-ROOT-表,即所有HRegion Server的地址和HTable信息。 
      3、避免HMsater的单点故障问题(重启故障的HMaster;如果zkLeader挂掉,重新选举出leader)。


Sqoop: SQL-to-Hadoop

             传统数据库与Hadoop间数据同步工具

             利用Mapreduce分布式批处理,加快了数据传输速度,保证了容错性.

             将关系数据库导入到HDFS和HIVE表中

             使用 sqoop-import 命令可以从关系数据库导入数据到 hdfs。

            上面的从MySQL导出数据到HDFS、创建Hive表格、导入数据到Hive三步,可以直接用一条Sqoop命令完成:

                 sqoop import--connect jdbc:mysql://ip/database --table tb1 --username user -P  --hive-import

HDFS:

  HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。