文件名称:etl_pipeline:PySpark ETL管道演示
文件大小:33KB
文件格式:ZIP
更新时间:2024-04-26 04:08:03
Python
ETL管道演示 概括 该存储库中有一个示例,我将其汇总为一个示例抽取-转换-加载(ETL)管道。 我正在使用GeoNames网站上的。 该管道的目的是演示使用PySpark提取,转换和加载公共可用的地理数据。 使用PySpark是因为消耗了大量数据; 其中一个数据集包含超过1200万行。 数据本身可用于希望分析周围州的社会地理特征的自然地理特征的地理爱好者或专业人士。 资料模型 最终模型包括一个事实表,所述geo_info表,以及两个维度表中, geonames表和country_info表。 开发geo_info表是为了排除执行临时查询的用户可能不会立即关注的无关参数。 尺寸表提供了其他信息,用户可以选择进一步调查这些信息。 数据字典 geo_info表 柱子 数据类型 描述 geoname_id 整型 地理地名ID 别名 细绳 功能的ASCII名称表示 纬度 漂浮 功能范围 经度
【文件预览】:
etl_pipeline-master
----.gitignore(121B)
----README.md(6KB)
----tests()
--------__init__.py(0B)
--------test_etl_pipeline.py(84B)
----src()
--------utils()
--------etl.py(2KB)
--------__init__.py(22B)
--------transformer.py(3KB)
----config.yaml(1KB)
----pyproject.toml(458B)
----poetry.lock(78KB)