文件名称:Batch-Pipeline-using-Apache-Beam:此存储库是有关如何使用Apache Beam创建批处理管道的示例
文件大小:61KB
文件格式:ZIP
更新时间:2024-03-15 19:49:49
Python
使用Apache Beam的批处理管道(正在建设中) 这是使用Python存储库的Apache Beam简介的一部分。 在这里,我们将尝试学习Apache Beam的基础知识以创建Batch管道。 我们将逐步学习如何使用创建批处理管道。 完整的过程分为5部分: 读取数据 解析数据 转换我们的数据集 删除不需要的数据集 将数据写入接收器 动机 在过去的两年中,我一直处于良好的学习曲线中,在此过程中,我提高了自己的技能,开始涉足机器学习和云计算领域。 这个项目是我所有学习的实践项目。 这是未来的第一件事。 使用的库/框架 内置 代码示例 # clone this repo, removing the '-' to allow python imports: git clone https://github.com/adityasolanki205/Batch-Pipelin
【文件预览】:
Batch-Pipeline-using-Apache-Beam-master
----.ipynb_checkpoints()
--------Testing-checkpoint.py(2KB)
--------README-checkpoint.md(27KB)
----output()
--------.ipynb_checkpoints()
--------simpleoutput.txt-00000-of-00001(78KB)
----README.md(27KB)
----__pycache__()
--------Testing.cpython-37.pyc(1KB)
----data()
--------german.data(78KB)
----Testing.py(2KB)