spark中webUI的启动、调试、配置历史服务器，spark-Master-HA等

Spark WEBUI
【Jobs,Stages,StorageLevel,Environment,Executors,SQL,Streaming 】
4040端口可以看到当前application中的所有的job,点击job可以看到当前job下对应的stage,点击stage出现stage下的task。

上传文件：

hdfs dfs -put /root/test/words /spark/data/

进入到Scala编程：去bin目录下：

./spark-shell --master spark://node01:7077

8080：sparkmaster

7077:sparkmaster提交的端口

8081：sparkworker的webUI端口

4040：web的端口

执行（必须要在active状态下启动）：

sc.textFile("hdfs://node01:8080/spark/data/words").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()

Local：默认的是1

集群，默认的是2

定义：

Val Rdd1= sc.textFile("hdfs://node01:8080/spark/data/words")

触发执行：

Rdd1.cache()

Cache是一个懒算子，需要触发：

Rdd1.count()

Reducebykey:预聚合的

卸载清空内存：

Rdd1.unpersist(),卸载掉内存中的数据

提交：

./spark-shell --master spark://node01:7077 --conf spark.eventLog.enabled=true --conf spark.eventlog.dir=hdfs://node01:8080/spark/log --name aaa

在这之前需要在spark文件夹下创建log文件

./spark-shell --master spark://node01:7077 --name bbb

查看历史，在sbin目录下：

./start-history-server.sh

18080：历史服务器的端口

8088：yarn的端口

8080：spark集群的master端口

7077：spark提交的时候的端口号

4040：option的端口

6379：redis的端口

设置以压缩格式存储：

在conf目录下：

Spark-dafaults.conf文件下：

压缩格式存储提交：

./spark-shell --master spark://node01:7077 --name ccc

在hdfs下查看文件：

Hdfs dfs -cat /root/test/words

查看历史记录：

首先配置：

Conf下default下：

spark.history.fs.logDirectory hdfs://node01:8080/spark/log

然后去sbin目录下启动：

./start-history-server

历史服务器端口：18080

在hdfs上查看文件内容：

Hdfs dfs -cat /spark/log/app-...
spark-Master-HA

基于zookeeper，在standby的条件下的，与yarn，等无关

在conf下的spark-env.sh文件下设置：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dsp

ark.deploy.zookeeper.url=node02:2181,node03:2181,node04:2181 -Dspark.deploy.zookeeper.dir=/MasterHA0723"

复制分发：

scp ./spark-env.sh node04:`pwd`

在node01下

启动所有

在node02下设置master为node02，并单独启动master

这样：node01为alive

Node02为standby备用

当node01被挂了的时候，node02起来顶替

启动执行：

./spark-submit --master spark://node01:7077,node02:707

7 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100

Master启动起来之后，都是driver和executor之间活动，master之间的来回切换不影响

spark中webUI的启动、调试、配置历史服务器，spark-Master-HA等

秒客网

spark中webUI的启动、调试、配置历史服务器，spark-Master-HA等

相关文章