安装spark 步骤
1、解压到/usr/local目录下:sudo tar -zxf ~/software/spark-2.1.0-bin-without-hadoop.tgz -C /usr/local/
2、进入local 目录 :cd /usr/local
3、将文件名改为 spark:sudo mv ./spark-2.1.0-bin-without-hadoop/ ./spark
4、把spark目录(以及其下的所有子目录/文件) 的 owner 改为 hadoop, 所属的group 改为hadoop:
sudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名
5、进入 spark 目录:cd spark
6、复制文件到spark-env.sh:cp ./conf/spark-env.sh.template ./conf/spark-env.sh
7、编辑spark-env.sh文件:vi ./conf/spark-env.sh
添加以下配置信息:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
注:笔者的hadoop 安装在 usr/local、Hadoop 的版本为 Hadoop 2.7.1
8、有了上面的配置信息以后,Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据。如果没有配置上面信息,Spark就只能读写本地数据,无法读写HDFS数据。
配置完成后就可以直接使用,不需要像Hadoop运行启动命令。
启动进入spark-shell 交互式运行环境:①、cd /usr/local/spark ② ./bin/spark-shell
也可通过运行Spark自带的示例,验证Spark是否安装成功
cd /usr/local/spark
./bin/run-example SparkPi 2>&1 | grep "Pi is"
下载地址spark 链接:http://spark.apache.org/downloads.html