Kafka消息队列简介

时间:2022-12-13 09:03:26

Kafka消息队列简介

1 基本概念

  • Broker

    Kafka集群包含一个或多个服务器,这种服务器被称为broker

  • Topic

    每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处)

  • Partition

    Partition是物理上的概念,每个Topic包含一个或多个Partition.(一般为kafka节点数cpu的总核数)

  • Producer

    负责发布消息到Kafka broker

  • Consumer

    消息消费者,向Kafka broker读取消息的客户端。

  • Consumer Group

    每个Consumer属于一个特定的Consumer Group(可为每个Consumer指定group name,若不指定group name则属于默认的group)。

2 消息队列

2.1 基本特性

可扩展

  • 在不需要下线的情况下进行扩容
  • 数据流分区(partition)存储在多个机器上

高性能

  • 单个broker就能服务上千客户端
  • 单个broker每秒种读/写可达每秒几百兆字节
  • 多个brokers组成的集群将达到非常强的吞吐能力
  • 性能稳定,无论数据多大
  • Kafka在底层摒弃了Java堆缓存机制,采用了操作系统级别的页缓存,同时将随机写操作改为顺序写,再结合Zero-Copy的特性极大地改善了IO性能。

持久存储

  • 存储在磁盘上
  • 冗余备份到其他服务器上以防止丢失

2.2 消息格式

一个topic对应一种消息格式,因此消息用topic分类

一个topic代表的消息有1个或者多个partition(s)组成

一个partition的数据:
- 一个partition应该存放在一到多个server上
- 如果只有一个server,就没有冗余备份,是单机而不是集群
- 如果有多个server
- 一个server为leader
- 其他servers为followers
- leader需要接受读写请求
- followers仅作冗余备份
- leader出现故障,会自动选举一个follower作为leader,保证服务不中断
- 每个server都可能扮演一些partitions的leader和其它partitions的follower角色,这样整个集群就会达到负载均衡的效果

  • 消息按顺序存放

  • 消息顺序不可变

  • 只能追加消息,不能插入

  • 每个消息都有一个offset,用作消息ID, 在一个partition中唯一

  • offset有consumer保存和管理,因此读取顺序实际上是完全有consumer决定的,不一定是线性的

  • 消息有超时日期,过期则删除

2.3 生产者 producer

  • producer将消息写入kafka
  • 写入要指定topic和partition
  • 消息如何分到不同的partition,算法由producer指定

2.4 消费者 consumer

  • consumer读取消息并作处理
  • consumer group

    • 这个概念的引入为了支持两种场景:每条消息分发一个消费者,每条消息广播给所有消费者
    • 多个consumer group订阅一个topic,该topci的消息广播给所有consumer group
    • 一条消息发送到一个consumer group后,只能由该group的一个consumer接收和使用
    • 一个group中的每个consumer对应一个partition可以带来如下好处
    • 可以按照partition的数目进行并发处理
    • 每个partition都只有一个consumer读取,因而保证了消息被处理的顺序是按照partition的存放顺序进行,注意这个顺序受到producer存放消息的算法影响
  • 一个Consumer可以有多个线程进行消费,线程数应不多于topic的partition数,因为对于一个包含一或多消费线程的consumer group来说,一个partition只能分给其中的一个消费线程消费,且让尽可能多的线程能分配到partition(不过实际上真正去消费的线程及线程数还是由线程池的调度机制来决定)。这样如果线程数比partition数多,那么单射分配也会有多出的线程,它们就不会消费到任何一个partition的数据而空转耗资源 。

  • 如果consumer从多个partition读到数据,不保证数据间的顺序性,kafka只保证在一个partition上数据是有序的,但多个partition,根据你读的顺序会有不同
  • 增减consumer,broker,partition会导致rebalance,所以rebalance后consumer对应的partition会发生变化