【文件属性】:
文件名称:MapReduce-program:在Hadoop上使用MapReduce程序计算大型语料库的句子的可能性
文件大小:4KB
文件格式:ZIP
更新时间:2021-05-22 04:35:43
Java
句子概率
该项目涉及使用hadoop上的MapReduce程序计算巨大语料库中每个句子的合理性。
通过使用以下公式,在位置i处存在的单词的句子的概率:
P(i, w) = Num(i, w) / N;
其中Num(i,w)是w在一个句子的第i个位置处存在的次数,N是具有至少i个单词的句子的总数。
句子的概率是其所有单个单词的概率的乘积。
1 2 3 4 5 6 7 [positions]
It is a Project to learn mapreduce [words]
P(s) = P(1 ,'It') P(2, 'is') P(3, 'a') P(4, 'project') P(5,'to') P(6,'learn') P(7,mapreduce).
这个程序
接受两个参数执行。 一个是用于主体的文件路径,另一个是放置
【文件预览】:
MapReduce-program-master
----CorpusCaculator.java(12KB)
----README.md(1KB)