文件名称:Scout:抓取媒体网站的爬虫
文件大小:16KB
文件格式:ZIP
更新时间:2024-07-11 17:50:53
Java
侦察 抓取媒体网站的爬虫 这只是 crwals cnn、bbc、al jazeera 和所有 affrica 的新闻文章及其相应的标题。 主要是提取: 标题 文章 出版日期 发布路径(用于未来步骤的重要性分析) 发布网址(我不知道为什么。但我觉得我需要这个) 这就是它将结果存储为 json 对象列表的全部内容。 它将与 hadoop 集群一起使用。 具体来说,我将使用 hive 查询来理解所有这些。
【文件预览】:
Scout-master
----.project(364B)
----README.md(500B)
----pom.xml(1KB)
----.settings()
--------org.eclipse.jdt.core.prefs(587B)
--------org.eclipse.ltk.core.refactoring.prefs(104B)
----src()
--------com()
----.classpath(935B)
----.travis.yml(15B)