spark-tutorial:PySpark流与批处理教程下载

【文件属性】：

文件名称：spark-tutorial:PySpark流与批处理教程

文件大小：7KB

文件格式：ZIP

更新时间：2024-06-07 06:30:23

Python

PySpark流与批处理教程（WIP）本教程的想法是要表明如何代码可以流和在pyspark批次分析（参见在功能之间共享analysis.py ）。重点是长期维护代码，即您想更新分析功能，而又不影响流传输和批处理管道。当前批次显示2个用例：重新启动主题标签分析-认为您想在特定的时间窗口上获取数据重新计算关键字并重新启动分析-认为您有一个改进的算法，需要更新所有历史数据这是一个正在进行的工作。去做：存储（关系，更新）像网络用户界面这样的消费者？重构更好地利用集群运行演示先决条件：带有pyspark的集群。在外壳1中，输入一些推文： $ nc -l -p 9999 -c "python3 tweets.py" 在外壳2中，运行流应用程序： $ spark-submit app.py 当有少量数据可用时，在外壳3中运行批处理应用程序： $

立即下载

【文件预览】：
spark-tutorial-master
----config.py(124B)
----tweets.py(3KB)
----app.py(3KB)
----batch.py(982B)
----analysis.py(539B)
----requirements.txt(50B)
----models.py(1KB)
----LICENSE(1KB)
----README.md(1KB)
----database.py(636B)
----.gitignore(725B)

秒客网

spark-tutorial:PySpark流与批处理教程

网友评论

相关文章