Spark shell里的语句探索

获得垃圾链接数据集的命令如下：

　　wget http://www-stat.stanford.edu/~tibs/ElemStatLearn/datasets/spam.data

scala> val inFile = sc.textFile("./spam.data）

　　这行代码的意思是，将spam.data文件中的每行作为一个RDD中的单独元素加载到spark中，并返回一个名为inFile的RDD。

scala> import spark.SparkFiles;

scala> val file = sc.addFile("spam.data")

scala> val inFile sc.textFile(SparkFiles.get("spam.data"))

　　这段代码的意思是，让spam.data文件在所有机器上都有备份。

_.toDouble 和 x=>x.toDouble等价

scala> val rawFile = sc.textFile("READEME.md")

sclaa> val words = rawFile.flatMap("line=> line.spilt("))

scala> val wordNumber = words.map(w => (w,1))

scala> val wordCounts = wordNumber.reduceBykey(_+_)

scala> wordCounts.foreach(println)

　　这段代码的意思是，读取文件READEME.md，以空格为拆分标志，将文件中的每一行分割为多个单词。对每一个单词进行计数，将单词进行分类合并，计算总的出现次数。将所有单词出现的次数进行打印输出。

秒客网