文件名称:Recommendation-System:使用Jaccard相似度,基于内容的推荐系统,基于用户的协作过滤,基于项目的协作过滤查找相似项集
文件大小:38.68MB
文件格式:ZIP
更新时间:2024-04-20 22:59:03
spark collaborative-filtering cosine-similarity jaccard-similarity tfidf
推荐系统(基于内容,基于项目的协作过滤,基于用户的协作过滤) 注意:推荐系统将使用yelp.com的数据 train_review.json –包含审阅数据的主文件,RS将主要使用此文件。 test_review.json –仅包含预测任务的目标用户和业务对 test_review_ratings.json –包含测试对的基本真实等级 停用词-包含在计算TFIDF分数时将使用的常见停用词。 首先使用Apache Spark对该文件进行预处理 推荐系统将分为三个任务,每个任务使用不同的算法来完成推荐。 task1将在train_review.json文件中找到相似的业务对。 使用的算法为:MinHash和位置敏感哈希,Jaccard相似度 task2是基于内容的RS,它将根据train_review.json文件中的用户和企业的评论文本生成配置文件。 使用的算法为:TF-IDF分数和
【文件预览】:
Recommendation-System-main
----task3user.model(57.89MB)
----task3train.py(10KB)
----task1GroudTruth.txt(4.01MB)
----task2train.py(6KB)
----task3user.predict(5.88MB)
----task3predict.py(9KB)
----task2.predict(5.95MB)
----task3item.predict(5.78MB)
----task1.py(6KB)
----task3item.model(49.38MB)
----README.md(5KB)
----task2predict.py(2KB)