Big_Data_Project:虚假新闻检测-使用矢量化(例如计数矢量化器,TFIDF矢量化器,哈希矢量化器)进行特征提取。 然后使用Ensemble模型对新闻是否为假新闻进行分类

时间:2024-02-24 19:20:17
【文件属性】:

文件名称:Big_Data_Project:虚假新闻检测-使用矢量化(例如计数矢量化器,TFIDF矢量化器,哈希矢量化器)进行特征提取。 然后使用Ensemble模型对新闻是否为假新闻进行分类

文件大小:12.67MB

文件格式:ZIP

更新时间:2024-02-24 19:20:17

machine-learning text-mining scikit-learn vectorization ensemble-model

Big_Data_Project-伪造新闻检测 在这个项目中,我们展示了使用机器学习算法进行文本分类。 我们致力于对给定的新闻文章是假的还是真实的进行分类。 数据清理和预处理: 删除了文本中的特殊字符拼写检查了所有文档删除了停用词对文档进行矢量化处理。 向量化 对于矢量化,我们使用了-计数矢量化器,TFIDF矢量化器,哈希矢量化器。 分类 对于分类目的,我们使用了:多项朴素贝叶斯,支持向量机(LinearSVC),PassiveAgressiveClassifier。 我们比较了矢量化器和分类器的性能。 最后,我们使用集成模型来获得更高的精度。 我们使用scikit-learn最大投票分类器


【文件预览】:
Big_Data_Project-master
----FAKE NEWS DETECTION.pptx(1.42MB)
----Figure_1.png(27KB)
----LICENSE(34KB)
----Src()
--------Results(3KB)
--------Classifiers.py(6KB)
--------Data_Preprocessing.py(4KB)
--------__pycache__()
--------plot_helpers.py(2KB)
--------Main.py(5KB)
--------Time_checker.py(4KB)
----README.md(4KB)
----config.py(316B)
----.idea()
--------misc.xml(199B)
--------encodings.xml(135B)
--------workspace.xml(19KB)
--------SOEN_691_Project.iml(500B)
--------vcs.xml(180B)
--------modules.xml(284B)
----__pycache__()
--------config.cpython-37.pyc(385B)
----Data()
--------fake_or_real_news.csv(29.27MB)

网友评论