文件名称:news-data-extraction:脚本库,用于从美国报纸中提取新闻文章
文件大小:26.54MB
文件格式:ZIP
更新时间:2024-05-26 15:16:27
Python
新闻数据提取 从美国报纸中提取新闻文章的脚本 可以在“ articleData”目录中相应报纸目录内的文件夹中找到已废弃的数据 结构: articleData目录中的每个.json文件都有一个以有效json格式存储的文章数据。 每个json数组都有5个键: “标题”:文章标题 “内容”:文章正文 “日期”:文章发表的日期 “作者”:文章的作者 “链接”:该文章的网址 注意:某些文章的“作者”键中将带有“ NULL”,这是因为这些文章是不一定具有作者的专栏文章或观点文章(例如:致编辑的信) 如何使用数据: import json import os articleDataDirectoryPath = "" # whatever the path of the articleData directory is filePathList = os . listDir ( articleD