文件名称:酒店系统java源码-Sentiment-Analysis:爬取商品评论并对商品评论进行情感分类
文件大小:69.85MB
文件格式:ZIP
更新时间:2024-06-26 15:54:26
系统开源
酒店系统java源码 Sentiment-Analysis 本项目主要内容说明 本项目是基于java实现的本科毕设。首先从亚马逊中文网站爬取了关于“手机”的评论,然后对其进行情感分类。使用用户标记的星级作为情感类别,将这些评论分为了3类(与星级对应关系为1-{1,2},2-{3},3-{4,5})和5类(与星级一一对应)。预处理包括字符处理(包括全角转半角、过滤无关符号,主要为了避免特征稀疏)以及发现新词、分词、删除停用词,使用的主要分类方法是朴素贝叶斯,特征选择方法包括信息增益(Information Gain,IG)和文档频率(Document Frequency,DF)以及它们的结合。 分类效果:对亚马逊评论三分类F1值效果为 79.72%, 五分类效果为 63.63%。为了进一步检验,使用本文分类器对tanh松波酒店评论进行二分类,使用信息增益筛选特征,最好情况下, precision、 recall、 F1 值分别达到了 85.89%、 82.33%、 84.07%. 本项目又进一步增加了卡方统计和互信息的特征选择方法,并进行了对比分析。以此为基础,在《计算机应用》发表了。并