文件名称:MapReduce与关系型数据库-Hadoop初探
文件大小:3.61MB
文件格式:PPT
更新时间:2024-05-12 13:29:52
Hadoop初探
1、MapReduce与关系型数据库 MapReduce似乎采用了是一种蛮力方法。即:针对每个查询,每一个数据集—至少是很大一部分—都会被处理。单这正是它的能力。MapReduce可以处理一批查询,并且它针对整个数据集处理即席查询并在合理时间内获得结果的能力是有突破性的。 为什么我们不能使用数据库加上更多磁盘来做大规模的批量分析呢?为什么我们需要MapReduce? 答案源自磁盘驱动器的另一个发展趋势:寻址时间的提高速度远远慢于传输速率的提高速度。寻址就是将磁头移动到特定的位置进行读写操作的工序。它的特点是磁盘操作有延迟,而传输速度对应于磁盘的带宽。 如果数据的访问模式受限于磁盘的寻址,势必导致它花更长时间来读写大部分数据。另一方面,在更新一小部分数据库记录的时候,传统的B树(关系型数据库的一种数据结构,受限于执行查找的速度)效果很好。但在更新大部分数据库数据的时候,B树的效率就没有MapReduce的效率高,因为它需要使用排序和组合重建数据库。在许多情况下,MapReduce能够视为一种RDBMS的补充。 二、Hadoop与其他系统