文件名称:Big_Data_Project_3:Spark、MapReduce、Scala
文件大小:6.06MB
文件格式:ZIP
更新时间:2024-06-24 20:19:41
Scala
大数据_项目_3 Tony Zheng 和我的大数据项目 3 的源代码 • 问题 给定多个文档,使用 MapReduce 计算单词语义相似度 输入:一个文本文件,每一行代表一个文档 输出:按相似度降序排序的词项对列表 t1 t2 s1 t3 t4 s2 • 子问题 计算词频 – 每个词的逆文档频率 (TF-IDF) 计算术语相似度 对术语相似度进行排序
【文件预览】:
Big_Data_Project_3-master
----.gitignore(207B)
----project()
--------plugins.sbt(22B)
--------build.properties(20B)
----src()
--------main()
----README.md(475B)
----[Baumann + Zheng] Big_Data_Project_3.tar.gz(5.99MB)
----Csci-493-project-3-report.docx(117KB)
----build.sbt(231B)