文件名称:将数据流式传输到附近的管道中,实时使用Kafka-Spark:目标是能够在平台上拥有数据以运行流式数据管道。 在此,我们将CSV文件的内容生成给Kafka主题,使用来自Kafka主题的消息
文件大小:4KB
文件格式:ZIP
更新时间:2024-03-10 10:40:56
Scala
使用卡夫卡火花将数据流传输到附近的管道中 #运行KafkaProject文件 我们每天都获得STM的信息,并且需要运行ETL管道来丰富数据,以便实时进行报告和分析。 数据一分为二 一组构建维度的表格(批处理样式) 为了进行分析和报告(流)而需要丰富的行程为了能够在Spark Streaming等平台上运行流分析,我们需要在Kafka等流平台上拥有记录。 使用kafka-console-producer将trips.txt文件生成到Kafka。 每行是一条消息。 将行程主题消费到您的应用程序中将从Kafka轮询的每个记录解析为一个Trip对象,为每个消息实例化一个EnrichedTrip对象(将路线和日历部分保留为空;无)将每个EnrichedTrip转换为CSV格式并将其生成为riched_trip主题
【文件预览】:
Streaming-Data-into-pipeline-in-near--realtime-using-Kafka-Spark-master
----Route.scala(331B)
----KafkaProject.scala(3KB)
----Trip.scala(373B)
----build.sbt(136B)
----README.md(904B)
----Calendar.scala(390B)
----EnrichedTrip.scala(625B)