文件名称:data-engineering-concepts
文件大小:371KB
文件格式:ZIP
更新时间:2024-04-26 22:07:18
JupyterNotebook
数据工程概念 数据工程技能和工具 语言:Python,SQL 数据库:Postgres,Mysql,AWS RDS,DynamoDB,RedShift,Apache Cassandra 建模:维度数据建模 批处理ETL:Python,SparkSQL 工作流管理:气流 数据工程项目/所学概念 资料建模 创建了关系和NoSQL数据模型,以适应数据使用者的各种需求。 使用ETL在PostgreSQL和Apache Cassandra中构建数据库。 数据仓库 Applied Data Warehouse体系结构在AWS云上学习并建立了数据仓库。 ETL管道从S3提取数据,将其分阶段迁移到Redshift,然后将数据转换为一组维度表,供分析团队使用。 数据湖 使用Spark和AWS EMR CLuster在AWS Cloud上构建了一个数据湖。 Data Lake充当单一来源的分析平
【文件预览】:
data-engineering-concepts-master
----Postgres-cassandra()
--------create_tables.py(2KB)
--------Project_1B_ Project_Template.ipynb(18KB)
--------etl.py(3KB)
--------test.ipynb(16KB)
--------etl.ipynb(49KB)
--------sql_queries.py(4KB)
--------Slide1.jfif(109KB)
--------README.md(3KB)
----etl.py(10KB)
----airflow()
--------plugins.tar.gz(7KB)
--------airflow.tar.gz(10KB)
--------plugins()
--------dags()
--------create_tables.sql(2KB)
--------plugins.tar(50KB)
----Datalake()
--------log-data.png(118KB)
--------dl.cfg(186B)
--------etl.py(10KB)
--------Slide1.jfif(109KB)
--------etl_demo.ipynb(70KB)
--------README.md(5KB)
----etl_demo.ipynb(70KB)
----README.md(1KB)
----datawarehouse()
--------analytics.py(831B)
--------create_tables.py(1KB)
--------dwh.cfg(628B)
--------etl.py(1KB)
--------create_cluster.ipynb(26KB)
--------sql_queries.py(7KB)
--------README.md(4KB)