文件名称:使用本地文件和HDFS创建RDD-spark介绍 spark入门
文件大小:2.37MB
文件格式:PPT
更新时间:2024-05-16 04:02:55
spark学习 spark介绍 大数据ppt spark ppt
使用本地文件和HDFS创建RDD Spark是支持使用任何Hadoop支持的存储系统上的文件创建RDD的,比如说HDFS、Cassandra、HBase以及本地文件。通过调用SparkContext的textFile()方法,可以针对本地文件或HDFS文件创建RDD。 有几个事项是需要注意的: 1、如果是针对本地文件的话,如果是在windows上本地测试,windows上有一份文件即可;如果是在spark集群上针对linux本地文件,那么需要将文件拷贝到所有worker节点上。 2、Spark的textFile()方法支持针对目录以及通配符进行RDD创建。 3、Spark默认会为hdfs文件的每一个block创建一个partition,但是也可以通过textFile()的第二个参数手动设置分区数量,只能比block数量多,不能比block数量少。 // 案例:文件字数统计 val rdd = sc.textFile("data.txt") val wordCount = rdd.map(line => line.length).reduce(_ + _)