Map-Reduce本身并不是算法;而是一种处理模式;因为在大数据分布式这种场景下,处理数据运算和单机版不同;需要协同多台机器,并行计算;于是有了map-reduce这种模式,map阶段是数据处理,在各个机器上面进行并行计算,可以算作是对于数据的一个过滤+计算过程,对于需要计算的数据进行收集(map)和一级计算;reduce其实是汇总操作,是对一级并行计算的结果进行groupby之后分配到一台或者几台机器上面进行二级的运算;
如果计算中没有groupby,那么reduce函数中就是直接emit就完事了;同样的,如果map中没有什么特别的计算,或者map-reduce中只有一个计算,那么就map中直接就是emit,计算放在reduce中来做(其实放在map中也可以);
所以map-reduce其实并不是算法,只是并行数据的处理方式,算法其实隐藏在map-reduce的函数实现里面。