hadoop携程数据情感预测.rar

时间:2023-01-30 13:10:41
【文件属性】:

文件名称:hadoop携程数据情感预测.rar

文件大小:3.65MB

文件格式:RAR

更新时间:2023-01-30 13:10:41

hadoop 朴素贝叶斯 java

基于Eclipse并使用Maven创建Hadoop工程。 1)训练集training.txt文件 该文件是一个大小为75.8MB的文本数据集,并包含了20,000,000条数据记录,每行数据中包含的信息为“评价结论\t 评价内容”。其中,“评价内容”是若干词语组合而成,词语之间是空格隔开,词语包括中文、英文以及其他特殊符号,即其内容为“word1 word2 word3 word4 …… wordn”,其中wordi表示当前文本描述中的第i个词,n为当前文本描述中包含的总词数。 2)测试集test.txt文件 给定“test.data”数据集,该数据集包含了2000条记录,每行记录中包含的信息为“评价内容”,该“评价内容”的具体表现形式与前文描述的“training.txt”数据集相同。


【文件预览】:
test.txt
training.txt
NB_2017082040
----pom.xml(1KB)
----target()
--------test-classes()
--------classes()
----.settings()
--------org.eclipse.m2e.core.prefs(86B)
--------org.eclipse.core.resources.prefs(115B)
--------org.eclipse.jdt.core.prefs(421B)
----src()
--------test()
--------main()
----.project(542B)
----.classpath(1KB)
training-1000.txt

网友评论