1 Kafka背景介绍
1.1 创建背景
Kafka是一个分布式消息系统,由LinkedLn使用Scala编写,用作LinkedLn的活动流和运营数据处理管道的基础,具有高水平扩展和高吞吐量。它已被多家不同类型的公司作为多种类型的数据管道和消息系统使用。目前越来越多的开源分布式处理系统如Apache Flume、Apache Storm、Spark、ElasticSearch都支持与Kafka集成。
活动流数据是几乎所有站点在对其网站使用情况做报表时都要用到的数据中最常规的部分。活动数据包括页面访问量(Page View)、被查看内容方面的信息以及搜索情况等内容。这种数据通常的处理方式是先把各种活动以日志的形式写入某种文件,然后周期性地对这些文件进行统计分析。运营数据指的是服务器的性能数据(CPU、IO使用率、请求时间、服务日志等等数据)。运营数据的统计方法种类繁多。近年来,活动和运营数据处理已经成为了网站软件产品特性中一个至关重要的组成部分,这就需要一套稍微更加复杂的基础设施对其提供支持。
1.2 设计目标
Kafka是一种分布式的、基于发布/订阅的消息系统,主要设计目标如下:
以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问性能。
高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。
支持Kafka Server间的消息分区及分布式消费,同时保证每个Partition内的消息顺序传输。
同时支持离线数据处理和实时数据处理。
支持在线水平扩展。
1.3 消息系统
为何使用消息系统,主要基于以下几点考虑:
解耦。在项目启动之初来预测将来项目会碰到什么需求,是极其困难的。消息系统在处理过程中间插入了一个隐含的、基于数据的接口层,两边的处理过程都要实现这一接口。这允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。
冗余。有些情况下处理数据的过程会失败,除非数据被持久化,否则将造成数据丢失。消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。
扩展性。因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可。不需要改变代码、不需要调节参数。扩展就像调大电力按钮一样简单。
灵活性/峰值处理能力。在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量并不常见;如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请求而完全崩溃。
可恢复性。系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。
顺序保证。在多数使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。Kafka保证了一个Partition内的消息的有序性。
缓冲。在任何重要的系统中,都会有需要不同的处理时间的元素。例如,加载一张图片比应用过滤器花费更少的时间。消息队列通过一个缓冲层来帮助任务最高效率的执行——写入队列的处理会尽可能的快速。该缓冲有助于控制和优化数据流经过系统的速度。
异步通信。很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多少,然后在需要的时候再去处理它们。
2 Kafka相关概念
2.1 AMQP协议
AMQP即Advanced MessageQueuing Protocol,是一个提供统一消息服务的应用层标准高级消息队列协议,是应用层协议的一个开放标准,为面向消息的中间件设计。基于此协议的客户端与消息中间件可传递消息,不受客户端/中间件不同产品、不同开发语言等条件的限制。AMQP协议模型如下图所示。
消费者(Consumer):从消息队列中请求消息的客户端应用程序。
生产者(Producer):向broker发布消息的客户端应用程序。
AMQP服务器端(Broker):用来接收生产者发送的消息并将这些消息路由给服务器中的队列。
2.2 Kafka架构
Kafka以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个Broker。生产者通过网络将消息发送到Kafka集群,集群向消费者提供消息,客户端和服务端通过TCP协议通信,其架构如下图所示。Kafka提供了Java客户端,并且对多种语言都提供了支持。
主题(Topic):对一组消息的归纳。一个主题类似新闻中的体育、娱乐、教育等分类概念,在实际工程中通常一个业务一个主题。
分区(Partition):一个Topic中的消息数据按照多个分区组织,分区是Kafka消息队列组织的最小单位,可以看作是一个先入先出(FIFO)的队列。每个分区都由一系列有序的、不可变的消息组成,这些消息被连续的追加到分区中。分区中的每个消息都有一个连续的序列号叫做offset,用来在分区中唯一的标识这个消息。
在一个可配置的时间段内,Kafka集群保留所有发布的消息,不管这些消息有没有被消费。比如,如果消息的保存策略被设置为2天,那么在一个消息被发布的两天时间内,它都是可以被消费的,之后它将被丢弃以释放空间。Kafka的性能是和数据量无关的常量级的,所以保留太多的数据并不是问题。
实际上每个consumer唯一需要维护的数据是消息在日志中的位置,也就是offset。这个offset由consumer来维护:一般情况下随着consumer不断的读取消息,offset的值不断增加,但其实consumer可以以任意的顺序读取消息,比如它可以将offset设置成为一个旧的值来重读之前的消息。
每个分区在Kafka集群的若干服务中都有副本,这些持有副本的服务可以共同处理数据和请求,副本数量是可以配置的。副本使Kafka具备了容错能力:每个分区都有一个服务器作为Leader,零或若干服务器作为Follower,Leader负责处理消息的读和写,Follower则复制Leader。如果Leader宕机了,Follower中的一台则会自动成为新的Leader。集群中的每个服务都会同时扮演两个角色:作为它所持有的一部分分区的Leader,同时作为其他分区的Follower,这样整个集群就会有较好的负载均衡。
Producer将消息发布到它指定的Topic中,并负责决定发布到哪个分区。通常可由负载均衡机制随机选择分区,也可以通过特定的分区函数选择分区。使用的更多的是第二种。
发布消息通常有两种模式:队列模式和发布—订阅模式。队列模式中多个Consumer可以同时从服务端读取消息,每个消息只被其中一个Consumer读到;发布—订阅模式中消息被广播到所有的Consumer中。Consumer可以加入一个Consumer组,共同竞争一个Topic,Topic中的消息将被分发到组中的一个成员中。如果所有的Consumer都在一个组中,这就成为了传统的队列模式。如果所有的Consumer都在不同的组中,这就成为了发布—订阅模式。更常见的是,每个Topic都有若干数量的Consumer组,每个组都是一个逻辑上的订阅者,为了容错和更好的稳定性,每个组由若干Consumer组成。这其实就是一个发布—订阅模式,只不过订阅者是组而不是单个Consumer。
如下所示的Kafka集群由两台机器组成,总共有4个分区和2个Consumer组,A组有2个Consumer而B组有4个。
2.3 对比传统消息系统
相比传统的消息系统,Kafka可以很好的保证消息的有序性:
传统的队列在服务器上保存有序的消息,如果多个Consumer同时从这个服务器消费消息,服务器就会以消息存储的顺序向Consumer分发消息。虽然服务器按顺序发布消息,但是消息是被异步的分发到各Consumer上的,所以当消息到达时可能已经失去了原来的顺序,这意味着并发消费将导致顺序错乱。为了避免故障,这样的消息系统通常使用“专用Consumer”的概念,其实就是只允许一个消费者消费消息,当然这就意味着失去了并发性。
在这方面Kafka做的更好。通过分区的概念,Kafka可以在多个Consumer组并发的情况下提供较好的有序性和负载均衡。将每个分区只分发给一个Consumer组,一个分区就只被这个组的一个Consumer消费,这样就可以顺序的消费这个分区的消息。因为有多个分区,依然可以在多个Consumer组之间进行负载均衡。注意Consumer组的数量不能多于分区的数量,也就是有多少分区就允许多少并发消费。
Kafka只能保证一个分区之内消息的有序性,在不同的分区之间是不可以的,这已经可以满足大部分应用的需求。如果需要Topic中所有消息的有序性,那就只能让这个Topic只有一个分区,当然也就只有一个Consumer组消费它。
3 环境准备
安装Kafka集群之前,需要首先安装JDK和Zookeeper集群,同时也需要对集群中各节点机器的Linux环境进行配置,其具体方法请参考我的另一篇文章《搭建Hadoop2.0高可用集群》。我的Kafka集群就在此集群基础上进行安装配置。
4 搭建Kafka集群
// 在hadoop-master1节点解压kafka安装包
$ tar-xvf kafka_2.11-0.10.0.0.tgz
// 进入kafka工作目录并常见一个logs目录
$ cd kafka_2.11-0.10.0.0/
$ mkdir logs
// 编辑配置文件server.properties
$ vim config/server.properties
# 设置日志存放的目录
log.dirs=/home/hadoop/app/kafka_2.11-0.10.0.0/logs
# 设置分区数
num.partitions=2
# 设置zookeeper地址
zookeeper.connect=hadoop-slave1:2181,hadoop-slave2:2181,hadoop-slave3:2181
# 设置服务器接收消息的最大字节数为5M
message.max.bytes=5242880
# 设置副本个数为2
default.replication.factor=2
# 设置取消息的最大字节数为5M
replica.fetch.max.bytes=5242880
// 将kafka工作目录从hadoop-master1节点复制到hadoop-master2节点
$ cd ~/app/
$ scp-r kafka_2.11-0.10.0.0/ hadoop-master2:/home/hadoop/app/
// 在hadoop-master2节点的kafka配置文件server.properties中修改broker.id
$ cd app/kafka_2.11-0.10.0.0/config/
$ vim server.properties
broker.id=1
// 分别在hadoop-master1和hadoop-master2节点配置kafka环境变量
$ cd ~
$ vim .bash_profile
export KAFKA_HOME=/home/hadoop/app/kafka_2.11-0.10.0.0
export PATH=$PATH:$KAFKA_HOME/bin
$ source .bash_profile
// 分别在hadoop-master1和hadoop-master2节点启动服务
$ kafka-server-start.sh-daemon $KAFKA_HOME/config/server.properties
$ jps
5 功能测试
// 创建topic,名称为test,只有1个副本和一个分区
$ kafka-topics.sh --create --zookeeperhadoop-slave1:2181 --replication-factor 1 --partitions 1 --topic test
// 查看topic
$ kafka-topics.sh --list --zookeeperhadoop-slave1:2181
$ kafka-topics.sh --describe--zookeeper hadoop-slave1:2181 --topic test
// 在hadoop-master2节点启动一个consumer
$ kafka-console-consumer.sh --zookeeperhadoop-slave1:2181 --topic test --from-beginning
// 在hadoop-master1节点启动一个producer并发送几条消息
$ kafka-console-producer.sh--broker-list localhost:9092 --topic test
// 在hadoop-master2节点查看是否消费者是否接收到消息