kafka架构
转 http://www.cnblogs.com/chushiyaoyue/p/5612298.html
相关文章: https://www.jianshu.com/p/6233d5341dfe
Terminology
- Broker
已发布的消息保存在一组服务器中,称之为Kafka集群。集群中的每一个服务器(server)都是一个代理(Broker). 消费者可以订阅一个或多个话题,并从Broker拉数据,从而消费这些已发布的消息
- Topic
每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处)
- Partition
Parition是物理上的概念,一个Topic包含一个或多个Partition,创建topic时可指定partition的数量,每个 partition对应于一个文件夹,该文件下存储该patition的数据和索引,patition被分布在kafka集群中的多个Broker上;每个 server(kafka实例)负责partitions中消息的读写操作;此外kafka还可以配置partitions需要备份的个数 (replicas),每个partition将会被备份到多台机器上,以提高可用性.
- Producer
Producer将消息发布到指定的Topic中,同时Producer也能决定将此消息归属于哪个partition;比如基于"round-robin"方式或者通过其他的一些算法等.
- Consumer
本质上kafka只支持Topic.每个consumer属于一个consumer group;反过来说,每个group中可以有多个consumer.发送到Topic的消息,只会被订阅此Topic的每个group中的一个consumer消费.
- Consumer Group
每个Consumer属于一个特定的Consumer Group(可为每个Consumer指定group name,若不指定group name则属于默认的group)。
kafka拓扑结构
如上图所示,一个典型的Kafka集群中包含若干Producer(可以是web前端产生的Page View,或者是服务器日志,系统CPU、Memory等),若干broker(Kafka支持水平扩展,一般broker数量越多,集群吞吐率越高), 若干Consumer Group,以及一个Zookeeper集 群。Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker,Consumer使用pull模式从 broker订阅并消费消息。