消息队列-Kafka学习

Kafka是一个分布式的消息队列，学习见Apache Kafka文档，中文翻译见Kafka分享，一个简单的入门例子见kafka代码入门实例。本文只针对自己感兴趣的点记录下。

1.架构

Producer/Consumer：消息的生成者和使用者。 Broker：kafka server充当broker角色，起到消息队列的作用。 topic/partion：topic是一类消息的名称，一个topic下的消息可以分成多区(partion)存储，一个分区是一个有序队列(消息按接收时间依次追加，利用offset做为唯一id)，分区间消息无序。 zookeeper：broker和consumer向zk注册，实现元数据的保存和交换、集群管理。 push/pull：producer通过一个初始broker.list与broker建立连接，获取所有broker信息，主动向一个topic的分区leader推送信息；consumer通过zk获取broker列表，主动从broker拉取信息。 consumer group：为了提高consumer处理并行性，多个consumer可以组成一个group，一个topic下的消息会保证每个group中的一个consumer消费，一个group中的consumer交错消费整个topic。简单说，topic下的一条消息会给所有的group，但一个group中只有一个consumer接收到该消息。

2.数据存储与备份

一个机子存储不下一个topic时，如何做？又如何做消息冗余备份呢？这就是分区的目的，在创建topic时可以指定其分区数、备份数，消息会被hash到不同的分区存储(其hash过程由producer在客户端处理)，每个分区有自己的机器。
消息队列-Kafka学习

如上，该kafka集群有3个broker(3个节点)，名字为my-replicated-topic-1的topic有4个partition，每个partition有2个replica(每条消息备份2次，每个replica位于不同的节点)，一个partion有一个leader负责该partition内的数据读写。producer根据消息的key hash到一个partition后，直接和该partition的leader通信。其中ISR(in-sync replicas)同步列表是该partition中处于同步状态的备份broker，如果一个broker长时间不和leader通信，或者消息数与leader相差太大，leader就会将该broker从ISR队列中移除，该broker就会后台从leader fetch数据，直到up-to-date，然后再次加入ISR同步列表。这些patition、replica信息与状态都存储在zookeeper中，便于leader重新选举和信息同步。
待续待读：https://cwiki.apache.org/confluence/display/KAFKA/FAQ；http://www.jasongj.com/2015/03/10/KafkaColumn1/

秒客网

消息队列-Kafka学习

1.架构

2.数据存储与备份

相关文章