【文件属性】:
文件名称:apache_beam-python:有关使用Apache Beam和Python进行批处理数据并行处理的演示项目
文件大小:26KB
文件格式:ZIP
更新时间:2021-02-18 08:45:17
python pipeline transformations apache-beam colab-notebook
apache_beam-python
一个使用Apache Beam和Python进行批处理数据并行处理的演示项目
团队成员
介绍
Apache Beam是一个数据处理平台。 数据处理可以用于分析目的,也可以用于ETL。 而且,它不依赖于任何与执行引擎和数据无关,与程序无关的人。
工作流程
阿帕奇光束
Apache Beam提供了一个简单而强大的编程模型,用于构建批处理和流并行数据处理管道。
批管道:用于批量处理数据的管道类型。
流数据管道:这些管道实时实时处理数百万个事件。
适用于python的Apache Beam SDK(软件开发工具包)可使用Python编程语言访问Apache Beam功能。
使用Apache Beam SDK,可以构建一个定义管道的程序。
角色与职责
拉朱-升序
Sudheera-分组依据
Rohith-降序
Pooja-
【文件预览】:
apache_beam-python-main
----pipeline.png(25KB)
----LICENSE(11KB)
----README.md(4KB)