我的spark应用需要统计每秒钟kafka发送过来的条数,一开始用的是zk方式,使用reduceByKey来实现,然后把数据丢到redis中保存,最后再统计一个小时内,总共收到的数量。后来改用直连模式实现,即createDirectStream实现,但后来在对数据的时候发现数据不准,即一个小时内收到的总数和kafka一小时内发送的总数对不上,但之前在zk模式下是没有问题的呀!所以我想这应该是集群的问题,后来我想是不是跟executor-cores这个参数有关,因为我一直用的是6,我的节点也是6个,所以一直没改过,然后我将它改为1再试,结果ok了,数据统计正确。
相关文章
- 160728、Spark Streaming kafka 实现数据零丢失的几种方式
- Spark Streaming的接收KAFKA的数据
- Spark Streaming kafka 实现数据零丢失的几种方式
- Spark Streaming的接收KAFKA的数据
- Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式
- Spark-Streaming获取kafka数据的两种方式:Receiver与Direct的方式
- 160728、Spark Streaming kafka 实现数据零丢失的几种方式
- Structured Streaming从Kafka 0.8中读取数据的问题
- 工具篇-Spark-Streaming获取kafka数据的两种方式(转载)
- spark streaming统计kafka数据计数不准的问题