计算模型MapReduce-Hadoop初探

时间:2024-05-12 13:29:53
【文件属性】:

文件名称:计算模型MapReduce-Hadoop初探

文件大小:3.61MB

文件格式:PPT

更新时间:2024-05-12 13:29:53

Hadoop初探

2、计算模型MapReduce MapReduce是一种高效的分布式计算模型,同时是一种用于处理和生成大规模数据集的实现方式。 ⑴ Input:应用程序提供 Map和 Reduce函数,并指明输入/输出的位置和其他运行必要的运行参数。 ⑵ Map:MapReduce 模型把用户作业的输入看作是一组键值对,模型会调用用户自定义的Map 函数处理每一个键值对,生成一批新的中间键值对,这两组键值对的类型可能不同。 ⑶ Shuffle&Sort:为了保证 Reduce 的输入是 Map排好序的输出。在 Shuffle 阶段,通过网络为每个Reduce 获得所有Map 输出中与之有关的键值对;而在Sort 阶段,将按照key 的值对Reduce 的输入进行分组。通常Shuffle 和Sort 两个阶段是并行执行的。 ⑷ Reduce:对每一个唯一key,执行用户定义的Reduce 函数,输出新的键值对。 ⑸ Output:将 Reduce输出的结果写入输出目录中。 计算模型MapReduce 的工作流程


网友评论