【文件属性】:
文件名称:Big_Data_Project_3:Spark、MapReduce、Scala
文件大小:6.06MB
文件格式:ZIP
更新时间:2021-06-05 02:33:01
Scala
大数据_项目_3
Tony Zheng 和我的大数据项目 3 的源代码
• 问题
给定多个文档,使用 MapReduce 计算单词语义相似度
输入:一个文本文件,每一行代表一个文档
输出:按相似度降序排序的词项对列表
t1 t2 s1
t3 t4 s2
• 子问题
计算词频 – 每个词的逆文档频率 (TF-IDF)
计算术语相似度
对术语相似度进行排序
【文件预览】:
Big_Data_Project_3-master
----.gitignore(207B)
----project()
--------plugins.sbt(22B)
--------build.properties(20B)
----src()
--------main()
----README.md(475B)
----[Baumann + Zheng] Big_Data_Project_3.tar.gz(5.99MB)
----Csci-493-project-3-report.docx(117KB)
----build.sbt(231B)