spark 在yarn模式下提交作业

1、spark在yarn模式下提交作业需要启动hdfs集群和yarn，具体操作参照：hadoop 完全分布式集群搭建

2、spark需要配置yarn和hadoop的参数目录

将spark/conf/目录下的spark-env.sh.template文件复制一份，加入配置：

YARN_CONF_DIR=/opt/hadoop/hadoop-2.8.3/etc/hadoop

HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.8.3/etc/hadoop

3、将spark整个目录分发到hdfs集群中每台机器上，分发命令可以参考：linux rsync

如果不想用rsync也可以直接用scp -r拷贝，测试环境下差别不大。

4、提交作业测试

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.11-2.4.4.jar 200

正常情况下很快就能计算完成：

spark 在yarn模式下提交作业

在yarn的UI可以监控到执行的作业：

spark 在yarn模式下提交作业

5、spark参数优先级

Spark加载属性参数的优先顺序是：

 （1）直接在SparkConf设置的属性参数

 （2）通过 spark-submit 或 spark-shell 方式传递的属性参数

 （3）最后加载 spark-defaults.conf 配置文件的属性参数

如果在程序里指定了SparkConf的参数，则spark缺省参数以及命令行参数都将失效，如果想灵活一下，我们可以在SparkConf加载缺省配置（spark-defaults.conf），然后在命令方式下覆盖参数。

val conf: SparkConf = new SparkConf(true).setAppName("SparkWordCount")

master这个参数就可以指定local或者yarn等模式，但是name参数在命令指定是无效的，因为已经内置了。

bin/spark-submit --master yarn --name myWordCount --class com.home.spark.WordCount --executor-memory 512M ~/sparkWordCount.jar hdfs://vmhome10.com:9000/input

spark 在yarn模式下提交作业的更多相关文章

spark on yarn模式下配置spark-sql访问hive元数据
spark on yarn模式下配置spark-sql访问hive元数据目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive ...
spark on yarn模式下内存资源管理（笔记1）
问题:1. spark中yarn集群资源管理器,container资源容器与集群各节点node,spark应用(application),spark作业(job),阶段(stage),任务(task) ...
spark on yarn模式下内存资源管理（笔记2）
1.spark 2.2内存占用计算公式 https://blog.csdn.net/lingbo229/article/details/80914283 2.spark on yarn内存分配** 本 ...
Spark在StandAlone模式下提交任务，spark&period;rpc&period;message&period;maxSize太小而出错
1.错误信息org.apache.spark.SparkException: Job aborted due to stage failure:Serialized task 32:5 was 172 ...
spark跑YARN模式或Client模式提交任务不成功（application state&colon; ACCEPTED）
不多说,直接上干货! 问题详情电脑8G,目前搭建3节点的spark集群,采用YARN模式. master分配2G,slave1分配1G,slave2分配1G.(在安装虚拟机时) export SPA ...
spark跑YARN模式或Client模式提交任务不成功（application state&colon; ACCEPTED）(转)
不多说,直接上干货! 问题详情电脑8G,目前搭建3节点的spark集群,采用YARN模式. master分配2G,slave1分配1G,slave2分配1G.(在安装虚拟机时) export SPA ...
flink on yarn模式下两种提交job方式
yarn集群搭建,参见hadoop 完全分布式集群搭建通过yarn进行资源管理,flink的任务直接提交到hadoop集群 1.hadoop集群启动,yarn需要运行起来.确保配置HADOOP_HO ...
Spark on YARN模式的安装（spark-1&period;6&period;1-bin-hadoop2&period;6&period;tgz + hadoop-2&period;6&period;0&period;tar&period;gz）（master、slave1和slave2）（博主推荐）
说白了 Spark on YARN模式的安装,它是非常的简单,只需要下载编译好Spark安装包,在一台带有Hadoop YARN客户端的的机器上运行即可. Spark on YARN简介与运行wor ...
spark on yarn模式里需要有时手工释放linux内存
为什么要提出这个问题? spark跑YARN模式或Client模式提交任务不成功(application state: ACCEPTED) 然后执行 [spark@master spark--bin- ...

随机推荐

动态SQL字符长度超过8000
动态SQL字符长度超过8000,我记得SQL SERVER 2008中用SP_EXECUTESQL打破了这个限制. 平常用动态SQL,可能都会用EXEC(),但是有限制,就是8000字符串长度.自从S ...
如何用css画出三角形
看到有面试题里会有问到如何用css画出三角形众所周知好多图形都可以拆分成三角形,所以说会了画三角形就可以画出很多有意思的形状画出三角形的原理是调整border(边框)的四个方向的宽度,线条样式以及 ...
poj2540Hotter Colder(半平面交）
链接根据距离可以列得直线方程,附上初始矩形的四个顶点,依次用直线切割. #include<iostream> #include <stdio.h> #include < ...
sender是什么意思C&num;
/// <summary> /// sender就是事件发起者,e存储事件发起者的一些参数 /// 例如: /// private void button1_Click(object se ...
go网络编程示例，客户端，服务器端
http://blog.csdn.net/wangningyu/article/details/22859245 http://blog.csdn.net/wangningyu/article/det ...
windows10 uwp获取设备当前地理位置（经纬度）
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
Java 中 String 的字面量与 intern 方法
下方代码主要说明: String b = new String("xyz") 创建2个对象,一个在常量池中的 "xyz",一个 String 实例对象,返回的 ...
使用mysql存放Ambari元数据的配置案例
使用mysql存放Ambari元数据的配置案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.环境准备详情请参考我之前的笔记:离线方式部署Ambari2.6.0.0 中关 ...
jQuery js 中return false,e&period;preventDefault(),e&period;stopPropagation()的区别(事件冒泡)
有时候遇到冒泡事件很烦人,真的..... 1.e.stopPropagation()阻止事件冒泡 <head> <title></title> <script ...
【洛谷P4513】小白逛公园
题目大意:维护动态带修改最大子段和. 题解:线段树额外维护合并最优解时需要的信息. 代码如下 #include <bits/stdc++.h> using namespace std; c ...