-
创建一个Python脚本,例如
wordcount.py
,并使用以下代码实现WordCount:from pyspark import SparkContext # 创建SparkContext sc = SparkContext("local", "WordCountApp") # 读取文本文件 text_file = sc.textFile("path/to/your/textfile.txt") # 执行WordCount操作 word_counts = text_file.flatMap(lambda line: line.split(" ")) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b) # 输出结果 word_counts.saveAsTextFile("path/to/output/directory") # 停止SparkContext sc.stop()
请将
path/to/your/textfile.txt
替换为你要分析的文本文件的路径,将path/to/output/directory
替换为输出结果的目录。 -
运行WordCount脚本:
spark-submit wordcount.py
这将使用Spark运行WordCount任务,并将结果保存在指定的输出目录中。
现在,你已经成功安装了PySpark并实现了WordCount示例。你可以根据实际需求修改脚本以处理不同的文本数据。