Kafka相比于HDFS的优势

时间:2022-12-10 14:23:46

今天看到了一个面试题,“数据为什么不直接采集到HDFS,而是采集到Kafka中”,觉得蛮经典了,整理了一下:


个人总结了四点:

1、实时性:hdfs的实时性没有kafka高。

2、消费量的记录:hdfs不会记录你这个块文件消费到了哪里,而基于zookeeper的kafka会记录你消费的点。

3、并发消费:hdfs不支持并发消费,而kafka支持并发消费,即多个consumer.

4、弹性且有序:当数据量会很大,而且处理完之后就可以删除时,频繁的读写会对hdfs中NameNode造成很大的压力。而kafka的消费点是记录在zookeeper的,并且kafka的每条数据都是有“坐标”的,所以消费的时候只要这个“坐标”向后移动就行了,而且删除的时候只要把这个“坐标”之前的数据删掉即可。