文件名称:hadoop_intro
文件大小:375KB
文件格式:ZIP
更新时间:2024-08-10 01:03:40
Python
#介绍 hadoop 框架是处理大量数据的强大工具。 通过使用 Hadoop,我们可以以指数方式而不是线性方式扩展我们的资源。 换句话说,每次向集群中添加另一台计算机时,您获得的计算资源都超过第一台计算机的能力。 因此,假设您从一台计算机开始,并且您正在尝试计算所有小于 10 亿的素数。 通过添加第二台计算机,您可以以两倍以上的速度到达那里! 为了理解这个框架,我们首先需要理解底层的设计模式:MapReduce。 ##MapReduce 在 Python 中 MapReduce 模式实际上非常简单。 下面是python中map和reduce的例子,以及它们的函数定义。 ###地图 def f(x): return x*x print map(f,[1,2,3]) # result is [1,4,9] 因此 map 函数将函数 f, 应用于列表中的每个元素。 在这里我们看到它的实
【文件预览】:
hadoop_intro-master
----reducer.py(1004B)
----example.py(256B)
----mapper.py(514B)
----example.py~(47B)
----README.md~(8KB)
----books()
--------book_one.txt(886KB)
--------book_two.txt~(0B)
--------book_three.txt(0B)
--------book_one.txt~(0B)
--------book_two.txt(190KB)
----README.md(8KB)