文件名称:案例统计文件字数-spark介绍 spark入门
文件大小:2.37MB
文件格式:PPT
更新时间:2024-05-16 04:02:56
spark学习 spark介绍 大数据ppt spark ppt
案例:统计文件字数 这里通过一个之前学习过的案例,统计文件字数,来讲解transformation和action。 // 这里通过textFile()方法,针对外部文件创建了一个RDD,lines,但是实际上,程序执行到这里为止,spark.txt文件的数据是不会加载到内存中的。lines,只是代表了一个指向spark.txt文件的引用。 val lines = sc.textFile("spark.txt") // 这里对lines RDD进行了map算子,获取了一个转换后的lineLengths RDD。但是这里连数据都没有,当然也不会做任何操作。lineLengths RDD也只是一个概念上的东西而已。 val lineLengths = lines.map(line => line.length) // 之列,执行了一个action操作,reduce。此时就会触发之前所有transformation操作的执行,Spark会将操作拆分成多个task到多个机器上并行执行,每个task会在本地执行map操作,并且进行本地的reduce聚合。最后会进行一个全局的reduce聚合,然后将结果返回给Driver程序。 val totalLength = lineLengths.reduce(_ + _)