文件名称:pyspark-example-project:为PySpark ETL工作和应用程序实施最佳实践的示例项目
文件大小:23KB
文件格式:ZIP
更新时间:2024-05-22 13:07:46
python data-science spark etl pyspark
PySpark示例项目 本文档旨在与pyspark-template-project存储库中的代码并行阅读。 这些共同构成了我们认为是使用Apache Spark及其Python('PySpark')API编写ETL作业的“最佳实践”方法。 该项目解决以下主题: 如何以易于测试和调试的方式构造ETL代码; 如何将配置参数传递给PySpark作业; 如何处理对其他模块和软件包的依赖; 和, 构成对ETL工作的“有意义”测试。 ETL项目结构 基本项目结构如下: root/ | -- configs/ | | -- etl_config.json | -- dependencies/ | | -- logging.py | | -- spark.py | -- jobs/ | | -- etl_job.py | -- tests/ | | --
【文件预览】:
pyspark-example-project-master
----.gitignore(131B)
----README.md(15KB)
----jobs()
--------etl_job.py(5KB)
----Pipfile.lock(6KB)
----build_dependencies.sh(1KB)
----tests()
--------test_etl_job.py(2KB)
--------test_data()
--------__init__.py(0B)
----configs()
--------etl_config.json(27B)
----Pipfile(187B)
----dependencies()
--------spark.py(4KB)
--------logging.py(1KB)
--------__init__.py(0B)
----packages.zip(3KB)