sparkStreaming-offset-to-zk:手动管理spark streaming集成kafka的数据偏移量到zookeeper中

时间:2024-05-23 01:23:06
【文件属性】:

文件名称:sparkStreaming-offset-to-zk:手动管理spark streaming集成kafka的数据偏移量到zookeeper中

文件大小:14KB

文件格式:ZIP

更新时间:2024-05-23 01:23:06

Scala

项目背景 公司核心的实时业务用的是spark streaming2.3.0+kafka1.3的流式技术来开发的。在这里我把它做成了一个骨架项目并开源出来,希望后来的朋友可以借阅和参考,尽量少走些弯路。 下面是使用过程中记录的一些心得和博客,感兴趣的朋友可以了解下: 项目简介 该项目提供了一个在使用spark streaming2.3+kafka1.3的版本集成时,手动存储偏移量到zookeeper中,因为自带的checkpoint弊端太多,不利于项目升级发布,并修复了一些遇到的bug,例子中的代码已经在我们生产环境运行,所以大家可以参考一下。 主要功能 提供了快速使用 spark streaming + kafka 开发流式程序的骨架,示例中的代码大部分都加上了详细的注释 提供了手动管理kafka的offset存储到zookeeper的方法,并解决了一些bug,如kafka扩容分区,重启实


【文件预览】:
sparkStreaming-offset-to-zk-master
----pom.xml(6KB)
----src()
--------main()
----.gitignore(19B)
----README.md(2KB)

网友评论

  • kafka版本是0.10的,然后spark-streaming-kafka-0-8_2.11 这里写的0.8 里面好多API不能用,大家下载的时候注意点,我给大家踩坑了 哈哈