文件名称:data_pipeline_in_gcp:进行ETL的数据管道
文件大小:9KB
文件格式:ZIP
更新时间:2024-04-26 19:00:15
Python
如何使用Google Cloud Function进行ETL? 所有代码都在 目标:ETL或提取,传输和加载 使用python在GCP中构建可靠的无服务器且经济高效的数据管道。 幸运的是,Google Cloud(GCP)提供了一些很棒的无服务器工具,您可以在其中免费运行这样的工作流。 在此仓库中,我们将考虑执行以下操作: 设置云功能和云存储 提取数据 转换资料 载入资料 自动化我们的管道 工作流程 在Cloud Storage中创建三个存储桶 设置Cloud Storage存储桶非常简单,非常简单,我仅向您提供指向的链接,其中提供了示例。 第一存储器是用于上载压缩文件并触发第一云功能的临时存储器。 第二个是暂存存储,用于触发第二个云功能。 第三个是最终存储,我们可以在其中下载结果excel文件文件。 创建2云功能。 第一个云功能确实提取压缩文件,将其发送到第二个存储,然后
【文件预览】:
data_pipeline_in_gcp-main
----unzip_file.py(2KB)
----main.py(1KB)
----app_engine.py(2KB)
----requirements.txt(144B)
----README.md(2KB)
----main_2.py(4KB)
----rename_change_csv()
--------check_duplication.py(2KB)
--------requirements.txt(128B)
--------change_and_save.py(2KB)
--------README.md(1KB)