文件名称:Spark的温和介绍-linux树莓派智能家居
文件大小:2.37MB
文件格式:PDF
更新时间:2024-07-12 14:31:32
大数据 spark
第2章Spark的温和介绍 现在我们已经完成了关于Apache Spark的历史课,现在是时候开始使用和应用它了!本章 简要介绍了Spark,我们将使用DataFrames和SQL来介绍集群的核心架构,Spark应用程序 和Spark的结构化API。在此过程中,我们将介绍Spark的核心术语和概念,以便您可以立 即开始使用Spark。让我们开始介绍一些基本的背景信息。 Spark的基本架构 通常情况下,当您想到“计算机”时,您会想到家中或工作时坐在办公桌上的一台机器。 这台机器非常适合观看电影或使用电子表格软件。但是,正如许多用户可能在某些时候 遇到的那样,有些东西是您的计算机功能不足以执行的。一个特别具有挑战性的领域是 数据处 单台机器没有足够的功率和资源来执行大量信息的计算(或者用户可能没有时间 等待计算完成)。计算机的集群或组将许多计算机的资源集中在一起,使我们能够像使 用单个计算机一样使用所有累积资源。现在,仅仅一组机器并不强大,您需要一个框架 来协调它们之间的工作。 Spark将用于执行任务的机器集群由集群管理器(如Spark的独立集群管理器,YARN或Me sos)管理。然后,我们将Spark应用程序提交给这些集群管理器,这将为我们的应用程序 提供资源,以便我们完成工作。 Spark应用程序 Spark应用程序由驱动程序进程和一组执行程序进程组成。驱动程序进程运行main()函 数,位于集群中的一个节点上,负责三件事:维护有关Spark应用程序的信息; 响应用户的 程序或输入; 并在执行者之间分析,分发和安排工作(暂时讨论)。驱动程序过程绝对必 要 - 它是Spark应用程序的核心,并在应用程序的生命周期内维护所有相关信息。 执行人员负责实际执行司机分配给他们的工作。这意味着每个执行程序只负责两件事: 执行驱动程序分配给它的代码,并将该执行程序上的计算状态报告回驱动程序节点。