MapReduce海量数据处理

时间:2016-09-24 11:06:45
【文件属性】:

文件名称:MapReduce海量数据处理

文件大小:330KB

文件格式:DOC

更新时间:2016-09-24 11:06:45

MapReduce

在 Google 每天都有海量的数据需要处理,而且随着时间的积累数据量也在不断增大。其程序员需要编写大量的具有专门目的的计算程序,以用于处理海量的原始数据。如爬虫文档、Web 请求日志、查询请求等等。同时要的计算不同类型的派生数据仍旧是海量的,且成本和时间要求是有限的。此类的计算在概念理解上是容易的,但是实际实现是则因为输入的数据量的巨大,且计算处理需要分布在大量的机器上才有可能在一定的时间内完成。如何实现并行计算,分发数据,容错,管理调度和监控,综合起来,将使原本看似容易的计算,因需要大量的复杂的代码来处理,而变得异常的艰难。即简单的计算在数据规模较大时变得复杂而难以控制。为了更加有效和简洁的处理此类问题,Google 提出了 MapReduce 编程模型,它可以隐藏并行化、容错、数据分布、负载均衡等细节,把这些公共的细节抽象到一个库中,由一个运行时系统来负责。而将对数据的操作抽象为 map 和reduce 两个概念,这种抽象是源自 Lisp 以及其它很多函数式语言的 map 和 reduce概念。


网友评论