MapReduce-program:在Hadoop上使用MapReduce程序计算大型语料库的句子的可能性

时间:2024-06-10 22:22:23
【文件属性】:

文件名称:MapReduce-program:在Hadoop上使用MapReduce程序计算大型语料库的句子的可能性

文件大小:4KB

文件格式:ZIP

更新时间:2024-06-10 22:22:23

Java

句子概率 该项目涉及使用hadoop上的MapReduce程序计算巨大语料库中每个句子的合理性。 通过使用以下公式,在位置i处存在的单词的句子的概率: P(i, w) = Num(i, w) / N; 其中Num(i,w)是w在一个句子的第i个位置处存在的次数,N是具有至少i个单词的句子的总数。 句子的概率是其所有单个单词的概率的乘积。 1 2 3 4 5 6 7 [positions] It is a Project to learn mapreduce [words] P(s) = P(1 ,'It') P(2, 'is') P(3, 'a') P(4, 'project') P(5,'to') P(6,'learn') P(7,mapreduce). 这个程序 接受两个参数执行。 一个是用于主体的文件路径,另一个是放置


【文件预览】:
MapReduce-program-master
----CorpusCaculator.java(12KB)
----README.md(1KB)

网友评论