文件名称:Yelp_NLP_PRoject
文件大小:67KB
文件格式:ZIP
更新时间:2024-05-14 21:35:29
JupyterNotebook
Yelp数据挑战 数据 数据来自kaggle 数据处理_EDA 在文档中,我清理数据,选择最近的评论,并将评论数据集与业务数据集相关联。 我按城市对所有评论进行了排名,发现拉斯维加斯的评论最多,因此我决定深入探讨上拉斯维加斯的评论。 评论分类器 评论用户给出了两个部分,星号和文本。 星星范围从1-5。 在这里,我想基于评论文本构建预测变量,并预测用户是否喜欢该餐厅。 在这种情况下,我将5颗星的评分指定为“喜欢”,其他则为“不喜欢”。 您可能会想“嘿四星级是一个不错的评价”,是的,我同意,但是在许多人对四星级评价的文字评论中,他们没有说自己喜欢餐厅的程度,而是在谈论他们为什么这样做的原因。不给5星。 在这种情况下,将4星分类为不喜欢是更有意义的。 我使用NPL技术(例如词干,词形化和TF-IDF)从评论文本数据中提取特征。 然后使用Logistic回归和随机森林建立语言理解模型,对正面
【文件预览】:
Yelp_NLP_PRoject-master
----Yelp_Similar_review_search_engin.ipynb(25KB)
----Readme.md(2KB)
----Yelp_Data_Preprocessing_EDA.ipynb(94KB)
----Yelp_review_classifer.ipynb(9KB)
----Yelp_Restaurant_Recommender.ipynb(36KB)
----Yelp_Unsupervised_Clustering.ipynb(24KB)