文件名称:map_reduce_hadoop:使用HadoopMapReduce
文件大小:26.66MB
文件格式:ZIP
更新时间:2024-03-09 01:34:14
Python
使用Hadoop进行Map Reduce 马其顿大学希腊大数据课程团队项目 处理数据集,其中包含城市居民的个人数据。 目标是找到公民,其数据在数据集中存在多次,并删除所有重复项。 为了实现前者,还使用了Apache Hadoop和Map Reduce技术。 此外,相同的问题已解决了许多次,其中Hadoop集群的节点数与其他执行相比有所不同。 记录下每次执行所需的时间,并将其打印到图表中进行比较以及各种分析。 成员: George Michoulis-Dai16067 / Nikolaos Stefanidis-Dai16054 / Dimitris Tourgaidis-Dai16057 / Kwstas Tsiwlis-Dai16060