【文件属性】:
文件名称:ngrams:NGram Map Reduce 算法
文件大小:17KB
文件格式:ZIP
更新时间:2021-06-10 11:41:10
Java
Hadoop Map Reduce Trigram 计数器
该项目为 Hadoop MapReduce 实现了一个基本的三元组计数器。
它实现了一个自定义的 Trigram 类型并计算文本/语料库中每个 trigram 的频率。
模块
自定义数据类型
映射减少程序以计算语料库中的实例
简单的 bash 脚本来编译 java 类并创建一个 jar (tgc.jar)
数据类型的一些基本单元测试
映射器的 Python 原型
用法
假设 Hadoop 已正确安装和配置:
编译和创建 Jar
cd到项目根目录:
javac ./*.java jar cf tgc.jar *.class
将本地文本文件作为输入添加到 HDFS
/path/to/bin/hdfs dfs -put /path/to/local/file.txt /path/to/input
运行作业
<path to h
【文件预览】:
ngrams-master
----.gitignore(224B)
----mapper_prototype.py(804B)
----compile.sh(50B)
----Trigram.java(4KB)
----LICENSE(34KB)
----TestTrigram.java(1KB)
----README.md(1KB)
----TrigramCount.java(4KB)