文件名称:pysparkling:Apache Spark RDD和DStream接口的纯Python实现
文件大小:1.1MB
文件格式:ZIP
更新时间:2024-05-27 04:39:37
python data-science apache-spark data-processing Python
爆闪 Pysparkling提供了一种更快,响应更快的方式来开发PySpark程序。 它使旨在用于Spark应用程序的代码能够完全在Python中执行,而不会产生通过JVM和Hadoop初始化和传递数据的开销。 重点是为小型数据集提供轻量级且快速的实现,但要以牺牲某些数据弹性功能和某些并行处理功能为代价。 它是如何工作的? 要将脚本的执行从PySpark切换为pysparkling,请让代码初始化pysparkling Context而不是SparkContext,然后使用pysparkling Context设置RDD。 这样做的好处是,您无需在Context初始化后更改任何代码行,因为pysparkling的API(几乎)与PySpark的API完全相同。 由于在PySpark和pysparkling之间切换非常容易,因此您可以为您的用例选择合适的工具。 我什么时候使用它? 假设您