二十四、Hadoop学记笔记————Spark的架构

时间:2022-03-14 16:03:14

master为主节点

二十四、Hadoop学记笔记————Spark的架构

一个集群中可能运行多个application,因此也可能会有多个driver

二十四、Hadoop学记笔记————Spark的架构

DAG Scheduler就是讲RDD Graph拆分成一个个stage

一个Task对应一个SparkEnv

二十四、Hadoop学记笔记————Spark的架构

客户端提交请求,然后master生成driver,生成对应的SparkContext,然后将任务拆分为多个RDD,对应上述流程

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

用户自定义Spark程序并且提交后,生成Driver Program,然后生成多个Job,每个JOB根据RDD的宽依赖关系来生成多个stage,一个stage对应一个taskset,taskset只一个stage下所有的task,每个task对应一个block数据块,执行并运算

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

二十四、Hadoop学记笔记————Spark的架构

一个block块就有128,如果频繁的IO读取数据将造成大量的网络延时

二十四、Hadoop学记笔记————Spark的架构