1.使用parallelize产生两个RDD
val rdd1 = sc.parallelize(List(("a",1),("b",2)))
val rdd2 = sc.parallelize(List(("c",3),("d",4),("a",1)))
2.Union使用(包括重复数据)
rdd1.union(rdd2).foreach(print)输出结果为:(a,1)(b,2)(c,3)(d,4)(a,1)官网关于Union使用如下:
def如果想去除重复的数据使用distincteliminate方法。
union(other: RDD[T]): RDD[T]
Permalink
Return the union of this RDD and another one. Any identical elements will appear multiple times (use .distinct() to eliminate them).
3.使用distinct去除重复数据
rdd1.union(rdd2).distinct().foreach(x => print(x+" "))
输出结果为:(a,1)(b,2)(c,3)(d,4)