文件名称:假新闻检测器:使用现代机器学习技术来识别新闻是真实的还是虚假的
文件大小:55.6MB
文件格式:ZIP
更新时间:2024-03-05 06:21:30
JupyterNotebook
假新闻检测器 使用现代机器学习技术识别政治新闻文章中的虚假信息通过本杰明·卡尔斯伯格 目录 背景 什么是“假”新闻? 从广义上讲,“假”新闻所包含的信息是虚假的或超出客观事实的夸大信息。 假新闻文章往往包含被认为是偏颇的语言,并且偏向一种观点,以促进政治议程或产生广告观点。 检测器如何工作 通过细化倾向于在“真实”和“伪造”新闻文章中使用的语言,检测器能够计算该文章来自事实来源的可能性。 *注意:这并不意味着检测器会验证文章中的实际要求。 它主要怀疑文章是否带有偏见。 数据 用于训练模型的数据包含超过70,000条带有标签的文章,这些文章来自“ Politifact.com”(占80%),“纽约时报”(占10%)和“洋葱杂志”(占10%)。 47%的文章标记为“伪造”,53%的标记为“真实”。 模型测试 使用TF-IDF向量为自然语言处理组织了数据: 用词合法化,避免重复 包含的三字组
【文件预览】:
fake-news-detector-master
----dash-app()
--------App Example.png(250KB)
--------src()
--------.DS_Store(6KB)
--------app.py(3KB)
----.gitignore(2KB)
----.ipynb_checkpoints()
--------Web_scrape-checkpoint.ipynb(3KB)
--------Politifact-checkpoint.ipynb(63KB)
--------Code-checkpoint.ipynb(314KB)
----images()
--------title_image.png(272KB)
--------.DS_Store(6KB)
--------dash_app_demo.png(702KB)
--------accuracy_pie_chart.png(131KB)
--------holdout_RFC.png(49KB)
--------ROC_Curve.png(207KB)
--------test_data_cross_val.png(178KB)
----data()
--------kaggle_news()
--------.DS_Store(6KB)
--------extra_news.csv(29.27MB)
--------politifact_data.csv(918KB)
----src()
--------.ipynb_checkpoints()
--------.DS_Store(6KB)
--------model_testing.ipynb(449KB)
--------__pycache__()
--------final_model.ipynb(431KB)
--------Politifact.ipynb(63KB)
--------helpers.py(3KB)
--------LSTM.ipynb(22KB)
----powerpoint_presentation.pdf(1.26MB)
----.DS_Store(8KB)
----README.md(3KB)
----Overview.pdf(49KB)