hadoop5hadoop5

时间:2012-01-19 05:02:28
【文件属性】:

文件名称:hadoop5hadoop5

文件大小:4.89MB

文件格式:RAR

更新时间:2012-01-19 05:02:28

hadoop5hadoop5

MapReduce Library将Input分成M份。这里的Input Splitter也可以是多台机器并行Split。 Master将M份Job分给Idle状态的M个worker来处理; 对于输入中的每一个 pair 进行Map操作,将中间结果Buffer在Memory里; 定期的(或者根据内存状态),将Buffer中的中间信息Dump到本地磁盘上,并且把文件信息传回给Master(Master需要把这些信息发送给Reduce worker)。这里最重要的一点是,在写磁盘的时候,需要将中间文件做Partition(比如R个)。拿上面的例子来举例,如果把所有的信息存到一个文件,Reduce worker又会变成瓶颈。我们只需要保证相同Key能出现在同一个Partition里面就可以把这个问题分解。


网友评论