Spark计算工作流

时间:2022-05-22 21:30:12

  下图 中描述了 Spark 的输入、运行转换、输出。在运行转换中通过算子对 RDD进行转换。算子是 RDD 中定义的函数,可以对 RDD 中的数据进行转换和操作。
‰   输入:在 Spark 程序运行中,数据从外部数据空间(例如, HDFS、 Scala 集合或数据)输入到 Spark,数据就进入了 Spark 运行时数据空间,会转化为 Spark 中
的数据块,通过 BlockManager 进行管理。
  运行:在 Spark 数据输入形成 RDD 后,便可以通过变换算子 f liter 等,对数据操作并将 RDD 转化为新的 RDD,通过行动(Action)算子,触发 Spark 提交作业。
如果数据需要复用,可以通过 Cache 算子,将数据缓存到内存。
‰   输出:程序运行结束数据会输出 Spark 运行时空间,存储到分布式存储中(如saveAsTextFile 输出到 HDFS)或 Scala 数据或集合中( collect 输出到 Scala 集合,
count 返回 Scala Int 型数据)。
  Spark计算工作流

                  图 1  Spark 算子和数据空间

  Spark 的 核 心 数 据 模 型 是 RDD, 但 RDD 是 个 抽 象 类, 具 体 由 各 子 类 实 现, 如MappedRDD、Shuff ledRDD 等子类。 Spark 将常用的大数据操作都转化成为 RDD 的子类。