如何理解spark中RDD和DataFrame的结构？

旅行中无意看到这个问题，最近的项目和spark dataframe相关，也来谈谈自己的理解啦
Spark RDD是分布式弹性数据集，一个比较核心的是粗粒度的分布式计算，粗粒度是指用户不用关心太多的分布式细节，用声明式的API就能完成分布式计算，比如Word Count用一行就能写完。RDD易用性很好，那Spark为啥还要有Dataframe呢？
DataFrame的从API上借鉴了R和pandas的DataFRame的概念，是业界标准结化数据处理API。DataFrame的数据抽象是命名元组，代码里是Row类型，Dataframe结合了过程化编程和声名式的API，让用户能用过程化编程的方法处理结构化数据。
Dataframe比RDD多了限制，带来了更多的优化，基于Spark Catalyst优化器，提供如列裁剪，谓词下推，map join等优化。同时，采用code generation ，动态编译表达式，提升性能，比用rdd的自定义函数性能高5倍左右。
举个例子，

rdd.map(lambda line: line.split("\t"))
   .map(lambda items: (items[0], items[1], items[2], items[3]))
   .filter(lambda items: int(items[2]) >= 19)
   .select(lambda items: (items[0], items[1]))

("people")
        .filter(col("age") >= 19)
        .select("id", "name")

用rdd读结构化文本要用map函数，需要按位置获取数据，没有schema，性能和可读性都不好。
而用dataframe可以直接通过sede读取结构化数据，性能比RDD高2到3倍左右，比MR高5倍左右，同时，具有结构化的数据，可读性更好。
DataFrame具有很好的易用性，支持多种语言，在一个上下文可以写udf，具有部署一致性，以前写HQL Transform的用户可以试试Dataframe，在复杂统计分析中，有dataframe可以过程化编程，模块化会更好，可读性强。
Dataframe可以用等方式转化为RDD，处理更多灵活的操作。

Spark2.0推出DataSet，是更加强类型的API，用了scala的泛型，能在编译是发现更多的编译问题DataFrame是DataSet〈Row〉类型，DS在接口上和DataFrame很相似。感觉是为了和structured streaming 统一做铺垫。

另外，看到Apache Beam这个google的开源项目正在用flume java的API统一google cloud api ，spark和flink这个和bigflow很像。

从用过dataframe的同事反馈，dataframe的易用性、性能都挺好。

秒客网

如何理解spark中RDD和DataFrame的结构？

相关文章