1、Kafka是一种高吞吐量的分布式发布订阅消息系统;
应用场景:
(1) kafka可以作为"网站活性跟踪"的最佳工具;可以将网页/用户操作等信息发送到kafka中.并实时监控,或者离线统计分析等;
(2) Kafka通常被用于可操作的监控数据。这包括从分布式应用程序来的聚合统计用来生产集中的运营数据提要。
2、Impala是实时交互SQL大数据查询工具;
3、jps进程对应的组件服务名称:
(1)QuorumPeerMain:zookeeper服务;
(2) HBase的服务器体系结构遵从简单的主从服务器架构,它由HRegion服务器群和HBase Master服务器构成:
HMaster//必须的,表明该hbase是Master
QuorumPeerMain//必须单独配置的Zookeeper集群,如果是内置的则为HQuorumPeer
HRegionServer//不是必须的,因为我们也将该Master设置为Region
NameNode//必须,任务调度器
SencondNameNode//必须,任务调度器
HRegion可能的进程:
QuorumPeerMain//必须单独配置的Zookeeper集群,如果是内置的则为HQuorumPeer
DataNode//必须,数据存储相关
HRegionServer//必须,表明是hbase存储节点;
(2)ThriftServer:Impala服务
cdh集群配置规则:
1、hdfs、yarn、hbase三个组件不能装同一台机器;
2、zookeeper装奇数台;
3、管理节点3-5台;
4、群集设置
所有目录/var变成/data
5、hbase默认端口60000,如果ssh默认端口设置为60000,则两者会有冲突;