使用oozie实现spark定时调度和spark依赖

时间:2022-09-22 07:59:00
oozie是针对hadoop的任务调度框架,因为spark on yarn的模式是基于hadoop的任务调度模块yarn来做的,所以spark on yarn模式可以利用oozie的定时模块和任务依赖调度模块,实现按时按步骤的执行spark的job,下面就简单介绍一下刚使用oozie时容易忽略和比较重要的地方。
最简单来讲,一个简单依赖关系的ooziejob,需要一个提交到hdfs上的xml用来解析properties文件,一个properties对应一个oozie的job,一个jar包用来执行任务。
定时任务则额外需要一个xml用来指定定时规则。
下面就以最简配置举一个简单的spark定时任务和依赖例子

workflow.xml

">    <start to="spark-SparkOozieAction1"/>  
<kill name="Kill">
<message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
</kill>
<action name="spark-SparkOozieAction1">
<spark xmlns="uri:oozie:spark-action:0.1">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<master>${jobmaster}</master>
<mode>${jobmode}</mode>
<name>${jobname1}</name>
<class>${jarclass1}</class>
<jar>${jarpath1}</jar>
<spark-opts>${sparkopts1}</spark-opts>
<arg>${jararg1}</arg>
</spark>
<ok to="SparkOozieAction2"/>
<error to="Kill"/>
</action>
<action name="spark-SparkOozieAction2">
<spark xmlns="uri:oozie:spark-action:0.1">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<master>${jobmaster}</master>
<mode>${jobmode}</mode>
<name>${jobname2}</name>
<class>${jarclass2}</class>
<jar>${jarpath2}</jar>
<spark-opts2>${sparkopts}</spark-opts>
<arg2>${jararg}</arg>
</spark>
<ok to="End"/>
<error to="Kill"/>
</action>
<end name="End"/>
</workflow-app>

上面的workflow.xml简单的实现了一个依赖的job,对于两个sparkjob重 复使用的配置可以使用相同的配置名,其中的frequency是最重要的参数,设置时间间隔,EL表达式可以参照文章最后的表格。下面是定时的xml:
coordinator.xml

<coordinator-app xmlns="uri:oozie:coordinator:0.2" timezone="UTC" end="${end}" start="${start}" frequency="${coord:days(1)}" name="coordinatordays">
<action>
<workflow>
<app-path>${workflowAppUri}</app-path>
<configuration>
<property>
<name>jobTracker</name>
<value>${jobTracker}</value>
</property>
<property>
<name>nameNode</name>
<value>${nameNode}</value>
</property>
<property>
<name>queueName</name>
<value>${queueName}</value>
</property>
</configuration>
</workflow>
</action>
</coordinator-app>

需要注意的是,任务调度的时间是以UTC时区为参照的,因为我们在+8时区,所以需要把现在的时间-8得到UTC时区的时间。
下面是具体的job.properties和比较重要的属性介绍

#需要有,是否使用系统lib路径
oozie.use.system.libpath=True
#需要有,lib路径,在hdfs上的,根据实际情况,一般来讲都一样
oozie.libpath=hdfs://master:8020/user/oozie/share/lib/
#需要有,coordinator.xml在hdfs上的路径
oozie.coord.application.path=hdfs://master:8020/user/root/oozie/coordinator/coordinatordays.xml
#下面的两个最好有,是否启动安全机制和检查机制
security_enabled=False
dryrun=False
#下面是spark的属性参数,具体参照自己的workflow.xml
jobTracker=master:8032
nameNode=hdfs://master:8020
jobname=sparkjob
jarclass=com.spark.main
jarpath=hdfs://master:8020/user/root/oozie/jar/myspark.jar
#spark参数,其中spark.yarn.jar比较重要,要找到自己的assembly相关jar包,这是装配spark的类,很重要
sparkopts=--executor-memory 1G --total-executor-cores 2 --driver-memory 512M --conf spark.yarn.jar=hdfs://master:8020/system/spark/lib/spark-assembly-1.6.0-cdh5.9.0-hadoop2.6.0-cdh5.9.0.jar --conf spark.yarn.historyServer.address=http://master:18088 --conf spark.eventLog.dir=hdfs://master:8020/user/spark/applicationHistory --conf spark.eventLog.enabled=true
jararg1=hello
#下面是定时任务相关的参数 workflowAppUri是workflow.xml的地址,用来关联workflow.xml的信息
start=2017-07-26T16:10Z
end=2020-07-30T16:10Z
workflowAppUri=/user/root/oozie/workflow/workflow.xml
queueName=default
一般来讲,oozie经常会拿来和azkaban来比较,经常会权衡用那个框架比较好,整体而言,oozie是Apache下的一个项目,对于hadoop生态圈有更好的支持,依赖于笨重的配置文件,实现的功能也更丰富,但同时,笨重也是它的缺点之一,程序员在刚开始使用的时候,不太熟悉XML里的一些属性的联系和意义,容易犯一些不容易发现的小错误,oozie的日志也不是很完善,如果要找到错误,要去hadoop或者spark的日志系统里找问题;因为这些问题,azkaban的社区活跃度比oozie高很多,oozie也在最近几年版本更新的异常缓慢。所以如果对功能性要求不是很高,只是简单使用依赖关系和定时功能,那azkaban无疑是更好的选择。

oozie最常用的两个命令就是启动job和杀死job的命令

启动命令
oozie job -oozie http://master:11000/oozie -config /home/cdh/ooziejob/job.properties -run
kill命令,jobid可以到oozie自带的web界面查看
oozie job -oozie http://localhost:11000/oozie -kill 0000000-170724202624644-oozie-oozi-C