udacity-data-engineering-capstone:Udacity数据工程纳米级顶石项目

时间:2024-04-21 11:49:58
【文件属性】:

文件名称:udacity-data-engineering-capstone:Udacity数据工程纳米级顶石项目

文件大小:512KB

文件格式:ZIP

更新时间:2024-04-21 11:49:58

Python

项目5-顶石 概述 该项目的目的是为全球陆地温度和美国人口统计数据集创建一条ETL管道,以形成有关美国气候变化以及人口分析的分析数据库。 管道 工具与技术 该项目的最初目标是以一种使数据使用者能够轻松分析数据并使用可视化方法描述数据的方式来重组源数据。 因为数据是独立的(没有其他来源),也没有重复发生,所以我选择使用以下库在python中编写数据管道 熊猫; 一个快速,强大,灵活且易于使用的开源数据分析和处理工具。 在项目中,它主要用于从源文件加载数据和数据清理。 Psycopg2 ; 用于Python编程语言的最流行的PostgreSQL适配器。 在这里,我们将其用作与PostgreSQL交互的方式 PostgreSQL ; 世界上最先进的开源关系数据库。 用作持久性数据存储和项目的数据仓库。 由于数据集相对较小并且数据提取仅执行一次,因此无需使用诸如Apache Airflow的


【文件预览】:
udacity-data-engineering-capstone-main
----etl()
--------run.py(10KB)
--------.env(20B)
--------config()
--------lib()
----.gitignore(2KB)
----images()
--------db_schema.jpg(154KB)
--------pipeline.jpg(396KB)
----requirements.txt(107B)
----Makefile(502B)
----.pre-commit-config.yaml(1KB)
----LICENSE(1KB)
----docker-compose.yml(301B)
----README.md(5KB)
----data_exploration()
--------temperature.ipynb(2KB)
--------dempographics.ipynb(3KB)
----.vscode()
--------settings.json(381B)
--------workspace.env(125B)
----data_prep()
--------download_us_demographic_ds.py(2KB)
----.flake8(31B)
----requirements-dev.txt(52B)

网友评论