MapReduce 是一种用于处理大规模数据集的编程模型和计算框架,最初由 Google 提出,并被 Hadoop 等开源项目广泛应用。它主要包括两个阶段:Map 阶段和 Reduce 阶段。下面是 MapReduce 的基本原理:
图示不错
MapReduce 的基本原理:
-
Map 阶段(Map Phase):
- 输入数据被分割成大小相等的数据块,然后由多个 Map 任务并行处理。
- 每个 Map 任务接收一部分数据块,并将其转换成键-值对(Key-Value pairs)的集合。
- 用户定义的 Map 函数(mapper)被应用于每个键-值对,生成新的键-值对列表。
- Map 函数的输出会根据键的哈希值被分发到多个 Reduce 任务中,以便后续的 Reduce 阶段处理。
-
Shuffle 阶段(Sort and Shuffle):
- 在 Map 阶段之后,所有 Map 任务的输出会被分区并按照键的哈希值进行排序。
- 相同键的值被分配到相同的 Reduce 任务中,以便后续的 Reduce 阶段处理。
-
Reduce 阶段(Reduce Phase):
- 每个 Reduce 任务接收来自多个 Map 任务的输出,即经过分区和排序后的键-值对集合。
- 用户定义的 Reduce 函数(reducer)被应用于每个键-值对列表,生成最终的输出结果。
以上过程分步骤描述一下:
- 创建 Split。由于 Map 任务最终是分布式的进程运行在不同的机器上,split 描述了每个 Map 任务该去哪台机器上的整块数据中,读取哪一部分的数据;
- 读取数据;
- 数据经过用户编写的 Map 业务处理,输入的是 Key-Value 格式,输出也是 Key-Value 格式。这一步其实是对数据标记的过程,为每条数据标记一个特征(key),相同特征的数据最终会到一起;
- 数据经过分区后,写入到内存缓冲区中;
- 内存缓冲区被写满 80%后,在内存中进行排序(先按照分区排序,每个分区内部按照 key 排序);
- 如果定义了 combiner 的话,进行一次合并;
- 每个 Map 溢写出一个文件出来;
- 最终对每个 Map 溢写出的文件合并成一个大文件;
- 进行一次 combine,写入到本地文件中;
- 进行到 reduce 阶段,每个 reduce 任务从上游数据中拷贝出属于自己的文件
- 调用用户定义的 reduce 方法进行计算;
- 最终结果写入到 hdfs 中
- 这个 Map 任务计算之后,经过一个 partition 分区器,不同的 key 分配到不同的分区中。分区数量由下游的 reduce 数来决定。
- 经过分区后的数据,进入到一个环形缓冲区中,并且多次溢写之后,生成小文件。每个 Map Task 最终合并成一个文件。
- 可以看到 merge 最后的一个文件中是分段的,第一段的数据是给下游的第一个reduce任务的,第二段的数据是给下游的第二个 reduce 的。
- 也就是下游的 每个 reduce 要来上游的每个 Map 任务的文件中,取到属于自己的那一段文件。
- reduce 任务拉取完上游的各个分段数据之后,进行一次合并,合并到同一个文件中。
- reduceTask 读取这个合并好的文件,把相同的key分组一次,进行计算即可
word count的例子
博客例子图示
- 并行读取文本中的内容,然后进行MapReduce操作
- Map过程:并行读取文本,对读取的单词进行map操作,每个词都以<key,value>形式生成。
- 我的理解:
一个有三行文本的文件进行MapReduce操作。 - 读取第一行Hello World Bye World ,分割单词形成Map。
<Hello,1> <World,1> <Bye,1> <World,1> - 读取第二行Hello Hadoop Bye Hadoop ,分割单词形成Map。
<Hello,1> <Hadoop,1> <Bye,1> <Hadoop,1> - 读取第三行Bye Hadoop Hello Hadoop,分割单词形成Map。
<Bye,1> <Hadoop,1> <Hello,1> <Hadoop,1>
- Reduce操作是对map的结果进行排序,合并,最后得出词频。
- 我的理解:
- 经过进一步处理(combiner),将形成的Map根据相同的key组合成value数组。
<Bye,1,1,1> <Hadoop,1,1,1,1> <Hello,1,1,1> <World,1,1> - 循环执行Reduce(K,V[]),分别统计每个单词出现的次数。
<Bye,3> <Hadoop,4> <Hello,3> <World,2>