spark streaming统计kafka数据计数不准的问题

时间:2021-08-11 04:50:19

我的spark应用需要统计每秒钟kafka发送过来的条数,一开始用的是zk方式,使用reduceByKey来实现,然后把数据丢到redis中保存,最后再统计一个小时内,总共收到的数量。后来改用直连模式实现,即createDirectStream实现,但后来在对数据的时候发现数据不准,即一个小时内收到的总数和kafka一小时内发送的总数对不上,但之前在zk模式下是没有问题的呀!所以我想这应该是集群的问题,后来我想是不是跟executor-cores这个参数有关,因为我一直用的是6,我的节点也是6个,所以一直没改过,然后我将它改为1再试,结果ok了,数据统计正确。