文件名称:google-news:从 Google 新闻中抓取和分析新闻标题的脚本
文件大小:942KB
文件格式:ZIP
更新时间:2024-07-08 00:16:54
Python
谷歌新闻 从 Google 新闻中抓取新闻标题的脚本库,为可读性分析做好准备,并将新闻媒体汇总的结果可视化。 中描述了脚本及其输出。 google_news.py按设定的时间表从 Google 新闻主页上抓取新闻标题和新闻媒体的名称。 示例数据可在google_news.csv中找到。 在所有计划的作业运行后,数据将被清理:格式错误的文本、无意义的结果和重复的记录被重新格式化或删除。 标题的是通过测试评估的,这需要找到的可读性函数。 最后,清洗后的数据在新闻媒体层面聚合。 调用 google_news.R以使用创建结果的可视化。
【文件预览】:
google-news-master
----README.md(1KB)
----google_news.R(1KB)
----google_news.py(9KB)
----google_news.csv(10.5MB)