文件名称:ir-category-prediction:预测业务类别(Yelp 数据集)
文件大小:9.49MB
文件格式:ZIP
更新时间:2024-07-26 02:13:04
Python
类别预测 信息检索最终项目(IUB 2014) 问题 任务 1 - 我们如何从给定的评论文本中预测餐厅的类别? 任务 2-如何根据评论的文本预测用户评论的评分? 数据集 Yelp 数据集挑战 方法任务 1 从信息检索中的语言模型改编而来,其中每个文档都由主题分布表示。 我们使用潜在狄利克雷分配 (LDA),一种主题建模,从每个类别的评论文本中找到主题分布。 假设类别文档是主题的混合,文档的主题分布可以表示业务类别而不是词袋模型。 余弦相似度和海灵格距离用于计算文档之间的相似度。 方法任务 2 使用机器学习方法根据评论文本预测用户评分。 基于一个特定用户为所有评论制定了特征。 特征由评论中的情感组成,使用斯坦福 NLP 情感分析工具进行分析和推导。 使用 J48 算法训练训练数据,然后使用测试数据评估该方法。 使用RMSE、精确度、召回率和准确度等指标进行评估。
【文件预览】:
ir-category-prediction-master
----.gitignore(28B)
----note.txt(1KB)
----build_corpus.py(3KB)
----visualization()
--------350_topics()
----README.md(1KB)
----lda_training.py(2KB)
----ipynb()
--------word-cloud.ipynb(93KB)
--------data-extraction.ipynb(191KB)
----presentation.pdf(1.61MB)
----Task2_Rating_Prediction()
--------NLPProcessing.java(4KB)
--------SampleUserFeature()
--------PreprocessingFiles.java(4KB)
----evaluation.py(8KB)