Spark的三种运行模式

时间:2024-03-28 09:27:23

总结:不管什么运行模式,代码不用改变,只需要在spark-submit脚本提交时
通过--master xxx 来设置你的运行模式即可

1、local模式:本地运行,使用该模式做开发,使用local模式的话,只需要把spark的安装包解压开,什么都不用动,就能使用

./spark-submit \
--class  Charpter5.DataSourceApp \
--master local \
--name DataSourceApp \
--jars /home/keyan/maven_repository/com/typesafe/config/1.3.3/config-1.3.3.jar \
/root/IdeaProjects/spark_train/target/spark_train-1.0-SNAPSHOT.jar

2、Yarn模式:将Spark作业提交到Hadoop(YARN)集群中运行,Spark仅仅只是一个客户端而已

前提:1、要将Spark应用程序运行在YARN上,一定要配置HADOOP_CONF_DIR或者YARN_CONF_DIR
指向,CDH版本在$HADOOP_HOME/etc/conf,非CDH版本在$HADOOP_HOME/etc/hadooop

export HADOOP_CONF_DIR=/usr/local/src/hadoop-2.6.5/etc/hadoop

2、启动yarn

第一步:cd $HADOOP_HOME/sbin

第二步:./start-yarn.sh,如果要用到hdfs,则再将./start-dfs.sh给启动了,这两个的shell启动命令集成到了start-all.sh

Spark的三种运行模式

代码如下:

./spark-submit \
--class  Charpter5.DataSourceApp \
--master local \
--name DataSourceApp \
--jars /home/keyan/maven_repository/com/typesafe/config/1.3.3/config-1.3.3.jar \
/root/IdeaProjects/spark_train/target/spark_train-1.0-SNAPSHOT.jar

3、standalone模式:每个节点都要部署spark,在spark集群运行。

前提:

相关配置:

$SPARK_HOME/conf/slaves
    slave1

   slave2
$SPARK_HOME/conf/spark-env.sh
    SPARK_MASTER_HOST=master

启动spark集群:

step1:cd $SPARK_HOME/sbin

step2:./start-all.sh

 

代码:

./spark-submit \
--class  Charpter5.DataSourceApp \
--master spark://master:7077 \
--name DataSourceApp \
--jars /home/keyan/maven_repository/com/typesafe/config/1.3.3/config-1.3.3.jar \
/root/IdeaProjects/spark_train/target/spark_train-1.0-SNAPSHOT.jar