文件名称:MapReduce的模式、算法和用例
文件大小:195KB
文件格式:PDF
更新时间:2024-03-23 18:39:32
MapReduce的模式、算法和用例
在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers,Reduces,Combiners,Partitioners,和sorting。如下图所示。问题陈述:有许多文档,每个文档都有一些字段组成。需要计算出每个字段在所有文档中的出现次数或者这些字段的其他什么统计值。例如,给定一个log文件,其中的每条记录都包含一个响应时间,需要计算出平均响应时间。解决方案:让我们先从简单的例子入手。在下面的代码片段里,Mapper每遇到指定词就把频次记1,Reduce