文件名称:RDD运行原理-Hadoop,Hive,Hbase等框架详解
文件大小:3.06MB
文件格式:PPT
更新时间:2024-05-16 04:04:18
Hadoop Hive Spark Hbase
RDD运行原理 1.设计背景 许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,共同之处是,不同计算阶段之间会重用中间结果 目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销 RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构,我们不必担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理,不同RDD之间的转换操作形成依赖关系,可以实现管道化,避免中间数据存储