RDD编程 - 词频统计

时间:2025-02-12 11:20:03

RDD编程 - 词频统计

题目
编程要求
请仔细阅读右侧代码,根据方法内的提示,在Begin - End区域内进行代码补充,具体任务如下:

对文本文件内的每个单词都统计出其出现的次数。
按照每个单词出现次数的数量,降序排序。
文本文件内容如下:

hello java
hello python java
hello python python
hello flink
scala scala scala scala scala
说明:单词与单词之间以空格进行分割

测试说明
补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。
测试输入:可查看右侧文件夹中文件,具体内容为上述文本内容。
预期输出:
(scala,5)
(hello,4)
(python,3)
(java,2)
(flink,1)
代码

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("WordCount")
    val sc = new SparkContext(conf)
    val path = "file:///root/files/"
    /********* Begin *********/
    
    val rdd=sc.textFile(path)
    val rdd1=rdd.flatMap(x=>x.split(" ")).
    map(x=>(x,1)).
    reduceByKey(_+_).
    sortBy(_._2,false).
    foreach(println)
    /*
    println("(scala,5)")
    println("(hello,4)")
    println("(python,3)")
    println("(java,2)")
    println("(flink,1)")
    */
    //读取文件创建RDD

    //切分并压平

    //组装
    
    //分组聚合
    
    //排序

    //输出

	/********* End *********/

    sc.stop()
  }

}