Spark WEBUI
【Jobs,Stages,StorageLevel,Environment,Executors,SQL,Streaming 】
4040端口可以看到当前application中的所有的job,点击job可以看到当前job下对应的stage,点击stage出现stage下的task。
上传文件:
hdfs dfs -put /root/test/words /spark/data/
进入到Scala编程:去bin目录下:
./spark-shell --master spark://node01:7077
8080:sparkmaster
7077:sparkmaster提交的端口
8081:sparkworker的webUI端口
4040:web的端口
执行(必须要在active状态下启动):
sc.textFile("hdfs://node01:8080/spark/data/words").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()
Local:默认的是1
集群,默认的是2
定义:
Val Rdd1= sc.textFile("hdfs://node01:8080/spark/data/words")
触发执行:
Rdd1.cache()
Cache是一个懒算子,需要触发:
Rdd1.count()
Reducebykey:预聚合的
卸载清空内存:
Rdd1.unpersist(),卸载掉内存中的数据
提交:
./spark-shell --master spark://node01:7077 --conf spark.eventLog.enabled=true --conf spark.eventlog.dir=hdfs://node01:8080/spark/log --name aaa
在这之前需要在spark文件夹下创建log文件
./spark-shell --master spark://node01:7077 --name bbb
查看历史,在sbin目录下:
./start-history-server.sh
18080:历史服务器的端口
8088:yarn的端口
8080:spark集群的master端口
7077:spark提交的时候的端口号
4040:option的端口
6379:redis的端口
设置以压缩格式存储:
在conf目录下:
Spark-dafaults.conf文件下:
压缩格式存储提交:
./spark-shell --master spark://node01:7077 --name ccc
在hdfs下查看文件:
Hdfs dfs -cat /root/test/words
查看历史记录:
首先配置:
Conf下default下:
spark.history.fs.logDirectory hdfs://node01:8080/spark/log
然后去sbin目录下启动:
./start-history-server
历史服务器端口:18080
在hdfs上查看文件内容:
Hdfs dfs -cat /spark/log/app-...
spark-Master-HA
基于zookeeper,在standby的条件下的,与yarn,等无关
在conf下的spark-env.sh文件下设置:
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dsp
ark.deploy.zookeeper.url=node02:2181,node03:2181,node04:2181 -Dspark.deploy.zookeeper.dir=/MasterHA0723"
复制分发:
scp ./spark-env.sh node04:`pwd`
在node01下
启动所有
在node02下设置master为node02,并单独启动master
这样:node01为alive
Node02为standby备用
当node01被挂了的时候,node02起来顶替
启动执行:
./spark-submit --master spark://node01:7077,node02:707
7 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100
Master启动起来之后,都是driver和executor之间活动,master之间的来回切换不影响