目录
安置jdk
要求安置jdk1.8或以上版本。
安置Scala IDE for Eclipse
无需特别安置scala,这个IDE里面已经集成了。
官方下载:
配置Spark
下载Spark,我下载的版本如图所示
官方下载:
配置环境变量
变量名:SPARK_HOME 变量值:D:\spark (不能有空格)
添加到Path
安置pyspark包:
命令行执行:pip install pyspark
配置Hadoop
无需安置完整的Hadoop,但需要hadoop.dll,winutils.exe等文件。按照下载的Spark版本,,下载相应版本的hadoop2.7.1。
链接:https://pan.baidu.com/s/1jHRu9oE 暗码:wdf9
配置环境变量
添加到Path
重启计算机!!!环境变量才生效!!!
创建Maven工程
创建Maven工程可以快速引入项目需要的jar包。pom.xml文件里包罗了一些重要的配置信息。这里供给一个可用的Maven工程:
链接:https://pan.baidu.com/s/1hsLAcWc 暗码:nfta
导入Maven工程:
可以先将我供给的工程拷贝到workspace,然后引入
引入后,会自动下载一些jar包,需要期待几分钟
下图说明jar包下载完毕
报错:
改换一下scala的依赖版本:
运行wordCount.scala措施
Scala代码
package com.itmorn.ml import org.apache.spark.{SparkContext, SparkConf} object wordCount { def main(args: Array[String]) { val conf = new SparkConf().setMaster("local").setAppName("wordCount") //创建环境变量 val sc = new SparkContext(conf) //创建环境变量实例 val data = sc.textFile("data/wc.txt") //读取文件 data.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreach(println) //word计数 } }
条目7
。
条目8
。