spark-tutorial:PySpark流与批处理教程

时间:2024-06-07 06:30:23
【文件属性】:

文件名称:spark-tutorial:PySpark流与批处理教程

文件大小:7KB

文件格式:ZIP

更新时间:2024-06-07 06:30:23

Python

PySpark流与批处理教程(WIP) 本教程的想法是要表明如何代码可以流和在pyspark批次分析(参见在功能之间共享analysis.py )。 重点是长期维护代码,即您想更新分析功能,而又不影响流传输和批处理管道。 当前批次显示2个用例: 重新启动主题标签分析-认为您想在特定的时间窗口上获取数据 重新计算关键字并重新启动分析-认为您有一个改进的算法,需要更新所有历史数据 这是一个正在进行的工作。 去做: 存储(关系,更新) 像网络用户界面这样的消费者? 重构 更好地利用集群 运行演示 先决条件:带有pyspark的集群。 在外壳1中,输入一些推文: $ nc -l -p 9999 -c "python3 tweets.py" 在外壳2中,运行流应用程序: $ spark-submit app.py 当有少量数据可用时,在外壳3中运行批处理应用程序: $


【文件预览】:
spark-tutorial-master
----config.py(124B)
----tweets.py(3KB)
----app.py(3KB)
----batch.py(982B)
----analysis.py(539B)
----requirements.txt(50B)
----models.py(1KB)
----LICENSE(1KB)
----README.md(1KB)
----database.py(636B)
----.gitignore(725B)

网友评论