文件名称:Hadoop_MapReduce:使用Hadoop进行大数据处理
文件大小:8.21MB
文件格式:ZIP
更新时间:2024-03-07 12:07:02
hadoop map-reduce hdfs inverted-index wordcount
Hadoop_MapReduce 使用Hadoop进行大数据处理 该项目在Hadoop框架上使用Map-Reduce从零开始实现基本的文本处理任务,例如字数,n元语法,倒排索引,关系连接和k近邻算法。
【文件预览】:
Hadoop_MapReduce-master
----n-grams()
--------reducer2.py(436B)
--------mapper2.py(1KB)
--------mapper2_1.py(206B)
--------reducer2_1.py(436B)
----word_count()
--------reducer1.py(346B)
--------mapper1.py(532B)
----k_nearest_neighbor()
--------reducer5.py(372B)
--------mapper5.py(769B)
----README.md(251B)
----relational_join()
--------reducer4.py(541B)
--------mapper4.py(430B)
----inverted_index()
--------reducer3.py(387B)
--------mapper3.py(608B)
----input_files()
--------gutenberg()
--------Task4_join1.txt(3KB)
--------Test.csv(6KB)
--------Task4_join2.txt(5KB)
--------Train.csv(21.34MB)