文件名称:sentiment.analysis:使用 word2vec 和 scikit-learn 对 IMDB 电影评论的情感分析
文件大小:51.59MB
文件格式:ZIP
更新时间:2024-06-27 14:39:51
Python
情感分析 使用 word2vec 和 scikit-learn 对 IMDB 电影评论的情感分析 我们从 IMDB 电影评论中提取原始文本,如果它们的评分高于或等于 7,则将它们分类为正面,如果低于或等于 4,则将它们分类。中性评论不包括在此数据集中。 两个标签都是平衡的。 有 25000 条训练评论和 25000 条测试评论。 额外的 50000 个未标记的训练评论用于构建 word2vec 模型。 我们的目标是建立一个二元分类器来预测给定电影评论原始文本的情绪。 绩效报告 默认设置: 如果使用 unigram,我们会删除停用词,如果使用 bigram 或 bigram/unigram,我们不会删除它们。 非 word2vec 向量化器的字典大小:unigram 5k、bigram 10k、bigram/unigram 10k。 我们不对 tf 取对数(即 sublinear_
【文件预览】:
sentiment.analysis-master
----unlabeledTrainData.tsv(64.16MB)
----labeledTrainData.tsv(32MB)
----sentiment.py(15KB)
----testData.tsv(31.21MB)
----README.md(4KB)