Spark RDD弹性分布式数据集

时间:2022-09-28 16:40:57
【文件属性】:
文件名称:Spark RDD弹性分布式数据集
文件大小:1.19MB
文件格式:PPTX
更新时间:2022-09-28 16:40:57
spark 分布式 RDD简介 RDD创建方式 RDD的处理过程 转换算子 行动算子 RDD(Resilient Distributed Datasets弹性分布式数据集)是一个容错的、并行的数据结构,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。 RDD可以让用户显式地将数据存储到磁盘和内存中,并且还能控制数据的分区。每个RDD都具有五大特征,具体如下。 它是集群节点上的不可改变的、已分区的集合对象; 通过并行转换的方式来创建如(map、filter、join等); 失败自动重建(不是从开始点重建,可以从上一步重建); 可以控制存储级别(内存、磁盘等)来进行重用; 必须是可序列化的;在内存不足时可自动降级为磁盘存储,把RDD存储于磁盘上,这时性能有大的下降但不会差于现在的MapReduce; 对于丢失部分数据分区只需要根据它的lineage就可重新计算出来,而不需要做特定的checkpoint;

网友评论