pysparkling:Apache Spark RDD和DStream接口的纯Python实现下载

【文件属性】：

文件名称：pysparkling:Apache Spark RDD和DStream接口的纯Python实现

文件大小：1.1MB

文件格式：ZIP

更新时间：2024-05-27 04:39:37

python data-science apache-spark data-processing Python

爆闪 Pysparkling提供了一种更快，响应更快的方式来开发PySpark程序。它使旨在用于Spark应用程序的代码能够完全在Python中执行，而不会产生通过JVM和Hadoop初始化和传递数据的开销。重点是为小型数据集提供轻量级且快速的实现，但要以牺牲某些数据弹性功能和某些并行处理功能为代价。它是如何工作的？要将脚本的执行从PySpark切换为pysparkling，请让代码初始化pysparkling Context而不是SparkContext，然后使用pysparkling Context设置RDD。这样做的好处是，您无需在Context初始化后更改任何代码行，因为pysparkling的API（几乎）与PySpark的API完全相同。由于在PySpark和pysparkling之间切换非常容易，因此您可以为您的用例选择合适的工具。我什么时候使用它？假设您

立即下载

秒客网

pysparkling:Apache Spark RDD和DStream接口的纯Python实现

网友评论

相关文章