apache-beam-getting-started:Apache Beam入门

时间:2024-06-02 11:45:07
【文件属性】:

文件名称:apache-beam-getting-started:Apache Beam入门

文件大小:15KB

文件格式:ZIP

更新时间:2024-06-02 11:45:07

google-cloud dataflow apache-beam google-dataflow Java

Apache Beam入门 这是3-2-1节关于如何开始使用Apache Beam的项目。 倒排索引 有关此工具的更多信息,请访问: : 这个简单的批处理作业背后的想法是创建一个反向索引:给定一组文本格式的文档,该作业将解析并构建一个单词->每个单词的位置映射。 这项工作很有趣,因为它展示了如何: 读取数据+文件名(与使用TextIO略有不同) 过滤掉常见的停用词(以一种非常幼稚的方式,但是可以找到更多有趣的方式!) 创建一个CombineFn以避免将单个键的所有数据流式传输到单个节点 参考


【文件预览】:
apache-beam-getting-started-master
----.gitignore(1KB)
----README.md(1KB)
----pom.xml(4KB)
----bootstrap.sh(155B)
----src()
--------test()
--------main()
----Makefile(227B)

网友评论