本系列文章主要阐述大数据计算平台相关框架的搭建,包括如下内容:
- 基础环境安装
- zookeeper集群的搭建
- kafka集群的搭建
- hadoop/hbase集群的搭建
- spark集群的搭建
- flink集群的搭建
- elasticsearch集群的搭建
- alluxio集群的搭建
1.kafak简介
Kafka是一个分布式、分区的、多副本的、多订阅者的消息队列,以高吞吐量著称,主要用于实时数据的传输和处理,总体架构如下
更多内容请阅读官网 http://kafka.apache.org/documentation.html#introduction
2.kafka安装
- 下载
地址:http://kafka.apache.org/downloads,选择kafka_2.11-0.10.2.1.tgz版本
- 解压安装
本文环境列表
直接在服务器10.20.112.59上解压
cd ~ tar -zxvf kafka_2.11-0.10.2.1.tgz.gz mv kafka_2.11-0.10.2.1 kafka
- 配置更改
编辑kafka server配置文件
vi /wls/oracle/kafka/config/server.properties
主要是如下几项:
kafka集群
修改server.properties
不同集群broker.id 和host.name 不一样,根据实际情况配置。
修改默认配置文件中的
broker.id(每台服务器均不同)
port(如果是伪集群,则端口号需要改变)
host.name
advertised.host.name
zookeeper.connect(所有集群的ip均需要说明)
log.dirs
以服务器SZB-L0045546,则其server.properties需更改的配置如下:
broker.id= port= host.name=SZB-L0045546 advertised.host.name=10.20.112.59 zookeeper.connection=SZB-L0045546:,SZB-L0045551:,SZB-L0045552:/kafka log.dirs=/wls/oracle/bigdata/kafka/kafka-logs-,/wls/oracle/bigdata/kafka/kafka-logs-,/wls/oracle/bigdata/kafka/kafka-logs-
而集群另外4台服务器中的broker.id、host.name,advertised.host.name和SZB-L0045546的保持不同即可。同时集群中的服务器需要为kafka日志建立相关目录
mkdir -p /wls/oracle/bigdata/kafka/kafka-logs- mkdir -p /wls/oracle/bigdata/kafka/kafka-logs- mkdir -p /wls/oracle/bigdata/kafka/kafka-logs-
- 启动和验证
cd wls/oracle/bigdata/kafka/logs nohup /wls/oracle/kafka/bin/kafka-server-start.sh /wls/oracle/kafka/config/server.properties >> /wls/oracle/bigdata/kafka/logs/kafka.& &
创建topic
/wls/oracle/kafka/bin/kafka-topics.sh --zookeeper ,,,,/kafka --create --topic TEST --replication-factor --partitions
显示创建的topic
/wls/oracle/kafka/bin/kafka-topics.sh --zookeeper ,,,,/kafka --list
向TEST中写入消息
/wls/oracle/kafka/bin/kafka-console-producer.sh --broker-list ,,,,/kafka --topic TEST
从topic TEST中消费数据
/wls/oracle/kafka/bin/kafka-console-consumer.sh --bootstrap-server ,,,,/kafka --topic TEST --from-beginning