【文件属性】:
文件名称:spark-tutorial:PySpark流与批处理教程
文件大小:7KB
文件格式:ZIP
更新时间:2021-05-18 12:43:43
Python
PySpark流与批处理教程(WIP)
本教程的想法是要表明如何代码可以流和在pyspark批次分析(参见在功能之间共享analysis.py )。
重点是长期维护代码,即您想更新分析功能,而又不影响流传输和批处理管道。
当前批次显示2个用例:
重新启动主题标签分析-认为您想在特定的时间窗口上获取数据
重新计算关键字并重新启动分析-认为您有一个改进的算法,需要更新所有历史数据
这是一个正在进行的工作。
去做:
存储(关系,更新)
像网络用户界面这样的消费者?
重构
更好地利用集群
运行演示
先决条件:带有pyspark的集群。
在外壳1中,输入一些推文:
$ nc -l -p 9999 -c "python3 tweets.py"
在外壳2中,运行流应用程序:
$ spark-submit app.py
当有少量数据可用时,在外壳3中运行批处理应用程序:
$
【文件预览】:
spark-tutorial-master
----config.py(124B)
----tweets.py(3KB)
----app.py(3KB)
----batch.py(982B)
----analysis.py(539B)
----requirements.txt(50B)
----models.py(1KB)
----LICENSE(1KB)
----README.md(1KB)
----database.py(636B)
----.gitignore(725B)