文件名称:基本概念-Hadoop,Hive,Hbase等框架详解
文件大小:3.06MB
文件格式:PPT
更新时间:2024-05-16 04:04:17
Hadoop Hive Spark Hbase
基本概念 RDD:是Resillient Distributed Dataset(弹性分布式数据集)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型 DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系 Executor:是运行在工作节点(WorkerNode)的一个进程,负责运行Task Application:用户编写的Spark应用程序 Task:运行在Executor上的工作单元 Job:一个Job包含多个RDD及作用于相应RDD上的各种操作 Stage:是Job的基本调度单位,一个Job会分为多组Task,每组Task被称为Stage,或者也被称为TaskSet,代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集