并行化集合创建RDD-spark介绍 spark入门下载

【文件属性】：

文件名称：并行化集合创建RDD-spark介绍 spark入门

文件大小：2.37MB

文件格式：PPT

更新时间：2024-05-16 04:02:55

spark学习 spark介绍大数据ppt spark ppt

并行化集合创建RDD 如果要通过并行化集合来创建RDD，需要针对程序中的集合，调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集群上去，形成一个分布式的数据集合，也就是一个RDD。相当于是，集合中的部分数据会到一个节点上，而另一部分数据会到其他节点上。然后就可以用并行的方式来操作这个分布式数据集合，即RDD。 // 案例：1到10累加求和 val arr = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) val rdd = sc.parallelize(arr) val sum = rdd.reduce(_ + _) 调用parallelize()时，有一个重要的参数可以指定，就是要将集合切分成多少个partition。Spark会为每一个partition运行一个task来进行处理。Spark默认会根据集群的情况来设置partition的数量。但是也可以在调用parallelize()方法时，传入第二个参数，来设置RDD的partition数量。比如parallelize(arr, 10)

立即下载

秒客网

并行化集合创建RDD-spark介绍 spark入门

网友评论

相关文章