数据处理管道:使用Docker,Spark,Kafka和Cassandra进行实时数据处理管道和可视化

时间:2024-02-27 05:06:31
【文件属性】:

文件名称:数据处理管道:使用Docker,Spark,Kafka和Cassandra进行实时数据处理管道和可视化

文件大小:533KB

文件格式:ZIP

更新时间:2024-02-27 05:06:31

visualization twitter kafka spark cassandra

数据处理管道 描述 只需5个步骤,即可使用Docker Machine和Compose,Kafka,Cassandra和Spark构建功能强大的实时数据处理管道和可视化解决方案。 参见下面的项目架构: 到底发生了什么事? 我们连接到twitter流API( ),并开始基于关键字列表侦听事件,这些事件直接转发到Kafka(不解析)。 在中间,有一个spark作业,收集这些事件,将它们转换为Spark SQL上下文( ),该上下文过滤kafka消息并仅提取感兴趣的字段,在这种情况下为: user.location,文本和user.profile_image_url ,一旦有了,我们就会使用


【文件预览】:
data-processing-pipeline-master
----webserver()
--------Dockerfile(486B)
--------requirements.txt(32B)
--------webserver.py(2KB)
--------start.sh(127B)
--------templates()
----README.md(8KB)
----kafka_producer()
--------twitter_kafka_producer.py(2KB)
--------Dockerfile(486B)
--------requirements.txt(19B)
--------start.sh(136B)
----conf()
--------worker()
--------master()
----docker-compose.yml(2KB)
----spark-streaming-kafka-cassandra()
--------Dockerfile(665B)
--------build.sbt(1KB)
--------src()
--------start.sh(451B)
--------version.sbt(40B)
--------project()
----images()
--------screenshot.png(303KB)
--------project-architecture.png(176KB)

网友评论