文件名称:COMP_329_NLP:NLP类作业和项目的回购
文件大小:1.51MB
文件格式:ZIP
更新时间:2024-04-20 04:50:25
Python
COMP 329-NLP作业分配 硬件1:电影评论数据 这项任务的目的是确定电影评论是正面的还是负面的。 需要注意的是,我们根本不允许使用任何机器学习,并且分类器必须基于规则。 我选择使用基于胡柳意见数据集的NLTK软件包和他们的意见词典,以确定所涉及评论的观点。 在本示例中,我使用了意见词典,并比较了输入不同方面的词形化来确定其有效性。 我要么不使用词法化,要么对意见词典进行词法化,对输入语句进行词法化,或者对两个输入词都进行词法化。 根据词典数据集,对总体评论的评分是正面还是负面。 结果可以在results.md文件以及将要写入的最终报告中找到。 报告,结果,数据和评估脚本可在HW_1文件夹中找到。 硬件2:朴素贝叶斯分类器 作业2专注于我们自己对朴素贝叶斯分类器的实现,该分类器使用贝叶斯定理根据先验概率预测输入数据的类。 这种类型的分类器适用于可能具有重复数据的数据。 此外,此分类
【文件预览】:
COMP_329_NLP-master
----HW_2()
--------movie_nb_analysis.py(5KB)
--------naive_bayes.py(7KB)
--------results.md(536B)
----result_utils.py(6KB)
----HW_3()
--------vectorizer.py(1KB)
--------toxic_comment_classification.py(3KB)
--------results.md(3KB)
----gen_utils.py(4KB)
----HW_1()
--------HW 1 Report.pdf(32KB)
--------movie_review_analysis.py(2KB)
--------results.md(1KB)
----requirements.txt(58B)
----data()
--------positive_reviews.txt(607KB)
--------labeled_data.csv(2.43MB)
--------negative_reviews.txt(593KB)
--------punctuation.txt(9B)
--------stopwords.txt(953B)
----README.MD(2KB)