现在我们介绍spark (streaming) job独立配置的log4j的方法,通过查看官方文档,要为应用主程序(即driver端)或执行程序使(即executor端)自定义log4j配置,需要两步就完成了,下面具体说明。
第一步:上传自定义 log4j-driver.properties和log4j-executor.properties
第二步:添加-Dlog4j的配置。使用 --conf参数。
用于驱动程序:spark.driver.extraJavaOptions = -Dlog4j.configuration = <配置文件的位置>
用于执行者:spark.executor.extraJavaOptions= -Dlog4j.configuration = <配置文件的位置>
注意:driver端还可以使用spark-submit的--driver-java-options参数去配置。
方案一:使用 spark-submit的 --files 参数将自定义的配置文件上传到应用程序的文件列表中。
spark-submit
--class com.hm.spark.Application
--master yarn --deploy-mode cluster
--driver-cores 1 --driver-memory 1G
--num-executors 2 --executor-cores 1 --executor-memory 1G
--driver-java-options "-Dlog4j.configuration=log4j-driver.properties"
--conf spark.executor.extraJavaOptions="-Dlog4j.configuration=log4j-executor.properties"
--files /home/hadoop/spark-workspace/log4j-driver.properties,/home/hadoop/spark-workspace/log4j-executor.properties
/home/hadoop/spark-workspace/my-spark-etl-assembly-1.0-SNAPSHOT.jar
注意,这里我没有使用spark.driver.extraJavaOptions参数去配置,而是使用spark-submit的--driver-java-options参数进行设置的。
方案二:不使用 spark-submit的 --files 参数上传文件,直接使用文件。
spark-submit
--class com.hm.spark.Application
--master yarn --deploy-mode cluster
--driver-cores 1 --driver-memory 1G
--num-executors 2 --executor-cores 1 --executor-memory 1G
--driver-java-options "-Dlog4j.configuration=file:/home/hadoop/spark-workspace/log4j-driver.properties "
--conf spark.executor.extraJavaOptions="-Dlog4j.configuration=file:/home/hadoop/spark-workspace/log4j-executor.properties"
/home/hadoop/spark-workspace/my-spark-etl-assembly-1.0-SNAPSHOT.jar