Learning-PySpark:Packt学习PySpark的代码存储库

时间:2024-06-17 05:25:49
【文件属性】:

文件名称:Learning-PySpark:Packt学习PySpark的代码存储库

文件大小:7.46MB

文件格式:ZIP

更新时间:2024-06-17 05:25:49

JupyterNotebook

学习PySpark 这是Packt发布的的代码库。 它包含从头到尾完成本书所必需的所有支持项目文件。 关于这本书 Apache Spark是用于高效集群计算的开放源代码框架,具有用于数据并行性和容错性的强大接口。 本书将向您展示如何利用Python的功能并将其用于Spark生态系统。 您将首先全面了解Spark 2.0架构以及如何为Spark设置Python环境。 您将熟悉PySpark中可用的模块。 您将学习如何使用RDD和DataFrames抽象数据,并了解PySpark的流功能。 此外,您还将获得有关使用ML和MLlib的PySpark机器学习功能,使用GraphFrames进行图形处理以及使用Blaze进行多语言持久性的全面概述。 最后,您将学习如何使用spark-submit命令将应用程序部署到云中。 到本书结尾,您将对Spark Python API及其如何用于构建数据密


网友评论