htuple:在 MapReduce 中简化复合字段分区、排序和分组的库

时间:2024-08-02 07:56:35
【文件属性】:

文件名称:htuple:在 MapReduce 中简化复合字段分区、排序和分组的库

文件大小:46KB

文件格式:ZIP

更新时间:2024-08-02 07:56:35

Java

元组 在 MapReduce 中,使用复合映射输出键并自定义对哪些字段进行分区、排序和分组可能很乏味,尤其是在跨多个作业执行此操作时。 这个库的目标是提供一个Tuple类,它可以包含多个元素,并提供一个ShuffleUtils类,为您提供一个易于使用的方法来调整哪些元组元素应该用于分区、排序和分组. 目录 例子 想象一下,您正在 MapReduce 中处理人名。 您的映射器发出 记录,并且在您的 reducer 中,您希望按排序顺序流式传输名字。 这就是所谓的二级排序。 如果您要使用 htuple 来实现二级排序,我建议的第一件事是创建一个枚举来表示元组中的字段,以帮助提高代码的可读性。 /** * User-friendly names that we can use to refer to fields in the tuple


【文件预览】:
htuple-master
----pom.xml(6KB)
----core()
--------pom.xml(10KB)
--------src()
----BUILDING.md(310B)
----RELEASE.md(2KB)
----LICENSE(11KB)
----htuple-dist()
--------pom.xml(3KB)
--------src()
----examples()
--------pom.xml(11KB)
--------src()
----.gitignore(127B)
----README.md(5KB)
----DATATYPES.md(164B)

网友评论