使用本地文件和HDFS创建RDD-spark介绍 spark入门下载

【文件属性】：

文件名称：使用本地文件和HDFS创建RDD-spark介绍 spark入门

文件大小：2.37MB

文件格式：PPT

更新时间：2024-05-16 04:02:55

spark学习 spark介绍大数据ppt spark ppt

使用本地文件和HDFS创建RDD Spark是支持使用任何Hadoop支持的存储系统上的文件创建RDD的，比如说HDFS、Cassandra、HBase以及本地文件。通过调用SparkContext的textFile()方法，可以针对本地文件或HDFS文件创建RDD。有几个事项是需要注意的： 1、如果是针对本地文件的话，如果是在windows上本地测试，windows上有一份文件即可；如果是在spark集群上针对linux本地文件，那么需要将文件拷贝到所有worker节点上。 2、Spark的textFile()方法支持针对目录以及通配符进行RDD创建。 3、Spark默认会为hdfs文件的每一个block创建一个partition，但是也可以通过textFile()的第二个参数手动设置分区数量，只能比block数量多，不能比block数量少。 // 案例：文件字数统计 val rdd = sc.textFile("data.txt") val wordCount = rdd.map(line => line.length).reduce(_ + _)

立即下载

秒客网

使用本地文件和HDFS创建RDD-spark介绍 spark入门

网友评论

相关文章