Chapter05 高阶MapReduce(一) 链接MapReduce作业

时间:2022-12-25 05:11:07

1.顺序链接MapReduce作业

现在的需求是,在一个专利数据引用集中,需要找出引用次数最多的10个专利;可以采用如下思路:1.将所有专利排序,利用一个MapReduce进行倒序;2第二个MapReduce找出被应用次数最多的10个专利。

这就需要将第一个MapReduce的输出作为第二个MapReduce的输入,命令模式即:

mapreduce-1 | mapreduce-2|....

2.具有复杂依赖的MapReduce链接

Chapter05 高阶MapReduce(一) 链接MapReduce作业

3.预处理和后期处理的链接

Chapter05 高阶MapReduce(一) 链接MapReduce作业

Chapter05 高阶MapReduce(一) 链接MapReduce作业