文件名称:sf-crime-statistics-spark-streaming:使用Spark Streaming的旧金山犯罪统计
文件大小:336KB
文件格式:ZIP
更新时间:2024-03-03 18:54:14
Python
使用Spark Streaming进行旧金山犯罪统计 在此项目中,我们分析了从Kaggle提取的SF犯罪率的真实数据集,以使用Apache Spark结构化流技术提供统计分析。 先决条件 在继续之前,有必要安装下一个软件: Scala2.11 Java 1.8(openJDK 8) 使用Scala 2.11构建Kafka Python 3.6或3.7 Spark 2.4.7(如果需要WebUI中的“结构化流”选项卡,则为Spark 3.0.1和Scala 2.12) 步骤测试软件 作为第一步,必须运行Zookeeper和Kafka。 将数据集放入文件夹中: cp police-department-calls-for-service.json /path/to/code cp radio_code.json /path/to/code 安装python软件包: pip3
【文件预览】:
sf-crime-statistics-spark-streaming-master
----kafka_server.py(503B)
----producer_server.py(608B)
----config()
--------server.properties(5KB)
--------zookeeper.properties(1KB)
----images()
--------kafka_topic.png(228KB)
--------batch.png(82KB)
--------WebUIStreaming.png(74KB)
----consumer_server.py(513B)
----requirements.txt(54B)
----.gitignore(74B)
----data_stream.py(3KB)
----README.md(4KB)
----.gitattributes(18B)