1.顺序链接MapReduce作业
现在的需求是,在一个专利数据引用集中,需要找出引用次数最多的10个专利;可以采用如下思路:1.将所有专利排序,利用一个MapReduce进行倒序;2第二个MapReduce找出被应用次数最多的10个专利。
这就需要将第一个MapReduce的输出作为第二个MapReduce的输入,命令模式即:
mapreduce-1 | mapreduce-2|....
2.具有复杂依赖的MapReduce链接
3.预处理和后期处理的链接
1.顺序链接MapReduce作业
现在的需求是,在一个专利数据引用集中,需要找出引用次数最多的10个专利;可以采用如下思路:1.将所有专利排序,利用一个MapReduce进行倒序;2第二个MapReduce找出被应用次数最多的10个专利。
这就需要将第一个MapReduce的输出作为第二个MapReduce的输入,命令模式即:
mapreduce-1 | mapreduce-2|....
3.预处理和后期处理的链接