文件名称:spark-dataflow:提供用于执行数据流管道的 Spark 后端
文件大小:48KB
文件格式:ZIP
更新时间:2024-06-29 04:00:11
Java
火花数据流 介绍 Spark-dataflow 允许用户使用 Apache Spark 执行针对 Google Cloud Dataflow API 编写的数据管道。 Spark-dataflow 是一个早期的原型,我们将继续致力于它。 如果您对这个项目感兴趣,我们欢迎问题、评论和(尤其是!)拉取请求。 要了解我们已经确定的需要改进的领域,请查看 github 存储库中列出的问题。 动机 当我们开始研究 Spark-dataflow 时,我们有两个主要目标: 为为 Google Cloud Dataflow 编写的数据管道提供可移植性。 Google 让开始针对 Dataflow API 编写管道变得非常容易,但他们希望确保使用他们的工具创建管道不会将开发人员锁定在他们的平台上。 基于 Spark 的 Dataflow 实现意味着您可以随身携带管道逻辑。 这也意味着针对 Dataflow
【文件预览】:
spark-dataflow-master
----src()
--------test()
--------main()
----build-resources()
--------header-file.txt(564B)
--------checkstyle.xml(9KB)
----LICENSE(21KB)
----README.md(3KB)
----pom.xml(13KB)
----.gitignore(96B)