文件名称:ngrams:NGram Map Reduce 算法
文件大小:17KB
文件格式:ZIP
更新时间:2024-06-30 05:27:50
Java
Hadoop Map Reduce Trigram 计数器 该项目为 Hadoop MapReduce 实现了一个基本的三元组计数器。 它实现了一个自定义的 Trigram 类型并计算文本/语料库中每个 trigram 的频率。 模块 自定义数据类型 映射减少程序以计算语料库中的实例 简单的 bash 脚本来编译 java 类并创建一个 jar (tgc.jar) 数据类型的一些基本单元测试 映射器的 Python 原型 用法 假设 Hadoop 已正确安装和配置: 编译和创建 Jar cd到项目根目录: javac ./*.java jar cf tgc.jar *.class 将本地文本文件作为输入添加到 HDFS /path/to/bin/hdfs dfs -put /path/to/local/file.txt /path/to/input 运行作业 <path to h
【文件预览】:
ngrams-master
----.gitignore(224B)
----mapper_prototype.py(804B)
----compile.sh(50B)
----Trigram.java(4KB)
----LICENSE(34KB)
----TestTrigram.java(1KB)
----README.md(1KB)
----TrigramCount.java(4KB)