MapReduce:超大机群上的简单数据处理

时间:2016-07-22 04:34:38
【文件属性】:

文件名称:MapReduce:超大机群上的简单数据处理

文件大小:86KB

文件格式:DOC

更新时间:2016-07-22 04:34:38

MapReduce 超大机群 数据处理

计算利用一个输入key/value对集,来产生一个输出key/value对集.MapReduce库的用户用两个函数表达这个计算:map和reduce. 用户自定义的map函数,接受一个输入对,然后产生一个中间key/value对集.MapReduce库把所有具有相同中间key I的中间value聚合在一起,然后把它们传递给reduce函数. 用户自定义的reduce函数,接受一个中间key I和相关的一个value集.它合并这些value,形成一个比较小的value集.一般的,每次reduce调用只产生0或1个输出value.通过一 个迭代器把中间value提供给用户自定义的reduce函数.这样可以使我们根据内存来控制value列表的大小. 2.1 实例 考虑这个问题:计算在一个大的文档集合中每个词出现的次数.用户将写和下面类似的伪代码: map(String key,String value): //key:文档的名字 //value:文档的内容 for each word w in value: EmitIntermediate(w,"1"); reduce(String key,Iterator values): //key:一个词 //values:一个计数列表


网友评论

  • 作为参考吧
  • 例子不是很复杂