CloudDataWarehouse:在此存储库中,我为Redshift上托管的数据库创建ETL管道

时间:2024-04-04 22:57:30
【文件属性】:

文件名称:CloudDataWarehouse:在此存储库中,我为Redshift上托管的数据库创建ETL管道

文件大小:2KB

文件格式:ZIP

更新时间:2024-04-04 22:57:30

Python

云数据仓库 在此存储库中,我为Redshift上托管的数据库创建ETL管道。 我的名字叫数据工程师Akos Nemeth,我提供了一个构建ETL管道的解决方案,该管道从S3提取数据,在Redshift中进行分级,然后将数据转换为一组维表。 由于数据驻留在S3中,因此在该应用程序上用于记录用户活动的JSON目录中以及该应用程序中的歌曲上具有JSON元数据的目录中,我通过AWS检查了S3中的数据。 我使用了log_data和song_data并创建了以下登台表: staging_events,其中包含:艺术家,身份验证,名字,性别,ItemInSession,lastName,长度,级别,位置,方法,页面,注册,sessionId,歌曲,状态,ts,userAgent和userId staging_songs,其中包含:song_id,artist_id,artist_latitud


【文件预览】:
CloudDataWarehouse-main
----etl.py(691B)
----README.md(2KB)

网友评论