文件名称:Batch-Processing-Pipeline-using-DataFlow:该存储库是有关如何使用Apache Beam创建批处理管道的示例
文件大小:425KB
文件格式:ZIP
更新时间:2024-04-30 16:37:54
Python
使用DataFlow的批处理管道 这是使用Python存储库的Apache Beam简介的一部分。 在这里,我们将尝试学习Apache Beam的基础知识以创建Batch管道。 我们将逐步学习如何使用创建批处理管道。 完整的过程分为7个部分: 读取数据 解析数据 过滤数据 执行类型转换 数据争吵 删除不需要的列 在Bigquery中插入数据 动机 在过去的两年中,我一直处于良好的学习曲线中,在此过程中,我提高了自己的技能,进入了机器学习和云计算领域。 这个项目是我所有学习的实践项目。 这是未来的第一件事。 使用的库/框架 内置 克隆库 # clone this repo: git clone https://github.com/adityasolanki205/Batch-Processing-Pipeline-using-DataFlow.git 管道建设 以下是
【文件预览】:
Batch-Processing-Pipeline-using-DataFlow-master
----Local.py(6KB)
----.ipynb_checkpoints()
--------README-checkpoint.md(16KB)
--------batch-pipeline-checkpoint.py(6KB)
--------Local-checkpoint.py(6KB)
--------Testing-checkpoint.py(5KB)
----output()
--------DataWrangle.txt-00000-of-00001(513KB)
--------.ipynb_checkpoints()
--------beam-temp-testing.txt-865077c8798211eb8de37440bb0a5a10()
--------SplitPardo.txt-00000-of-00001(468KB)
--------Filtered_Data.txt-00000-of-00001(462KB)
--------beam-temp-testing.txt-b183ef069a0b11ebb4927440bb0a5a10()
--------Convert_datatype.txt-00000-of-00001(449KB)
--------beam-temp-Filtered_Data.txt-468a3b8076c011eb9d9b7440bb0a5a10()
--------complete_output.txt-00000-of-00001(470KB)
--------testing.txt-00000-of-00001(475KB)
--------simpleoutput.txt-00000-of-00001(78KB)
--------beam-temp-Filtered_Data.txt-c411140676be11eba9e67440bb0a5a10()
--------Delete_Unwanted_Columns.txt-00000-of-00001(470KB)
----data()
--------.ipynb_checkpoints()
--------german-original.data(78KB)
--------german.data(78KB)
----batch-pipeline.py(6KB)
----README.md(16KB)
----__pycache__()
--------Testing.cpython-37.pyc(4KB)
--------Test.cpython-37.pyc(4KB)
--------Local.cpython-37.pyc(4KB)