伪分布式搭建其实很简单(spark集群搭建都很简单)
1、首先到官网下载spark压缩包
2、下载
命令行中使用:wget
http://mirror.bit.edu.cn/apache/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz
3、解压
tar -zxvf spark-2.2.1-bin-hadoop2.7.tgz
4、修改配置文件
打开配置目录
cd spark-2.1.2-bin-hadoop2.7/conf/
5、拷贝配置文件
cp spark-env.sh.template spark-env.sh
打开配置文件
vim spark-env.sh
在最后一行加上
export JAVA_HOME=/usr/java/jdk1.8.0_151 export
SPARK_MASTER_IP=101.132.153.231 export SPARK_MASTER_PORT=7077
启动master
sbin/start-all.sh
6、jps验证
会有master 和 worker两个进程被启动
问题
web验证的时候会发现http://101.132.153.231:8080页面访问不了
看到8080肯定会想起tomcat默认端口,其实就是端口占用了
解决办法:
打开master文件
vim sbin/start-master.sh
在vim命令模式下输入 /8080
if [ “$SPARK_MASTER_WEBUI_PORT” = “” ]; then
SPARK_MASTER_WEBUI_PORT=8080 fi
找到后修改该端口为8001
命令模式下保存退出
重启一遍
sbin/start-all.sh
http://101.132.153.231:8001 页面就可以访问
启动spark-shell
bin/spark-shell
验证
访问http://101.132.153.231:4040/
至此 伪分布式就搭建完成!