spark中map与flatMap的区别

时间:2023-03-08 18:00:03
spark中map与flatMap的区别

作为spark初学者对,一直对map与flatMap两个函数比较难以理解,这几天看了和写了不少例子,终于把它们搞清楚了

两者的区别主要在于action后得到的值

例子:

import org.apache.spark.{SparkConf, SparkContext}

object MapAndFlatMap {
def main(args: Array[String]): Unit = {
val sc = new SparkContext(new SparkConf().setAppName("map_flatMap_demo").setMaster("local"))
val arrayRDD =sc.parallelize(Array("a_b","c_d","e_f"))
arrayRDD.foreach(println) //打印结果1 arrayRDD.map(string=>{
string.split("_")
}).foreach(x=>{
println(x.mkString(",")) //打印结果2
}) arrayRDD.flatMap(string=>{
string.split("_")
}).foreach(x=>{
println(x.mkString(","))//打印结果3
})
}
}

上述代码中,打印结果1、2、3分别如下面三图

打印结果1

spark中map与flatMap的区别

打印结果2

spark中map与flatMap的区别

打印结果3

spark中map与flatMap的区别

对比结果2与结果3,很容易得出结论:

map函数后,RDD的值为 Array(Array("a","b"),Array("c","d"),Array("e","f"))

flatMap函数处理后,RDD的值为 Array("a","b","c","d","e","f")

即最终可以认为,flatMap会将其返回的数组全部拆散,然后合成到一个数组中