文件名称:git-sqlite:用于将git log commit数据转换为sqlite的数据管道
文件大小:157KB
文件格式:ZIP
更新时间:2024-04-16 07:51:21
Python
gitlog→sqlite数据管道 该数据管道从github仓库中获取最新更改,然后将其git log输出转换为json数据,然后将其加载到pandas中并导出到sqlite。 气流代码库模板 背景 Apache Airflow是用于批处理工作负载的领先编排工具。 Airflow最初在Facebook上构思,最终在AirBnB上开源,允许您通过编写简单的Python定义复杂的有向无环图(DAG)。 Airflow有许多使数据工程简单的内置概念,包括DAG(描述如何运行工作流)和Operators(描述实际完成的工作)。 有关更多详细信息,请参见Airflow文档: : Airflow还具有其自己的体系结构:用于保留DAG和连接状态的数据库,支持用户界面的Web服务器以及由调度程序和数据库一起管理的工作程序。 日志会保存在平面文件和数据库中,并且可以设置Airflow以写入远程日志(
【文件预览】:
git-sqlite-master
----setup.py(254B)
----.gitignore(1KB)
----Dockerfile(894B)
----Makefile(3KB)
----dags()
--------git_log_etl.py(5KB)
--------process_log.awk(2KB)
----airflow.requirements.txt(48B)
----docker-compose.yaml(2KB)
----README.md(6KB)
----tests()
--------__init__.py(0B)
--------test_plugins_are_valid.py(2KB)
--------test_dags_are_valid.py(2KB)
----.pylintrc(16KB)
----json()
--------.gitignore(70B)
----plugins()
--------example_plugin.py(493B)
----docs()
--------airflow_architecture.png(140KB)
----local.requirements.txt(409B)
----repos()
--------.gitignore(70B)