Airflow

时间:2022-10-28 13:56:29


Ariflow On Kubernetes
原理,scheduler调用kube api server,创建一个airflow pod,在此镜像中调用airflow run 命令,启动KuberneteExecutor,KuberneteExecutor的能力是可以调用kube api server人物镜像,通过挂在dags volume或者git sync的方式获取dags配置文件,通过挂在logs volume,将执行日志会写到logs volume,以是执行的结果看上区就跟淡季执行的时候一样,整个集群的日志都写道了一个地方;

关键是找到稳定的存储,logs和dags都需要readwirtemany,阿里云的oss,​​运行一段时间后ls挂载目录出现Transport endpoint is not connected错误​​,云盘只能readwriteonce,只能使用nas,nas使用相对复杂,在VPC网络下需要使用虚拟交换机才行;

云盘是相对稳定的,也可以考虑将挂在云盘,自己搭建nfs服务器,将readwriteonce的云盘转为readwritemany;

​airflow/scripts/ci/kubernetes/​​​​BrechtDeVlieger/airflow-kube-helm​​​​charts/stable/airflow/​

​KubernetesExecutor for Airflow Scale Airflow natively on Kubernetes​

​Airflow on Kubernetes (Part 1): A Different Kind of Operator​​​​We’re All Using Airflow Wrong and How to Fix It​

​数据平台作业调度系统详解-理论篇​​​​数据平台作业调度系统详解-实践篇​

​Sphinx​