cs435:CS435(大数据)

时间:2024-05-22 12:04:02
【文件属性】:

文件名称:cs435:CS435(大数据)

文件大小:1.47MB

文件格式:ZIP

更新时间:2024-05-22 12:04:02

Java

cs435-大数据 PA1 使用MapReduce生成以下unigram配置文件(来自Wikipedia文章的1G数据集): 概要1:在整个语料库中至少出现过一次的字母组合的列表。 字母组合按(升序)字母顺序排序。 无重复。 简介2:目标文章中的字母组合及其频率列表。 此配置文件是按文章生成的。 结果列表按文档ID进行分组,并按照文章中的会标字词的频率进行排序(降序排列)。 配置文件3:在语料库中的字母组合及其频率的列表。 字母组合列表按语料库中字母组合的频率排序(降序排列)。 输入数据: PA1的输入数据是从一组Wikipedia文章编译而来的数据集。 每个数据文件的格式如下: Title_of_Article-1<====>DocumentID-1<====>Text_of_Article-1 NEWLINE NEWLINE Title_of_Article-2<==


【文件预览】:
cs435-master
----PA3()
--------src()
--------pom.xml(1KB)
----PA1()
--------src()
--------sampleInput.txt(3.96MB)
--------README.md(26B)
----pom.xml(879B)
----WordCount.java.iml(11KB)
----README.md(4KB)
----target()
--------classes()
----PA0()
--------WordCount.java(2KB)
----PA2()
--------src()
--------pom.xml(679B)

网友评论