Scout:抓取媒体网站的爬虫下载

【文件属性】：

文件名称：Scout:抓取媒体网站的爬虫

文件大小：16KB

文件格式：ZIP

更新时间：2024-07-11 17:50:53

Java

侦察抓取媒体网站的爬虫这只是 crwals cnn、bbc、al jazeera 和所有 affrica 的新闻文章及其相应的标题。主要是提取：标题文章出版日期发布路径（用于未来步骤的重要性分析）发布网址（我不知道为什么。但我觉得我需要这个）这就是它将结果存储为 json 对象列表的全部内容。它将与 hadoop 集群一起使用。具体来说，我将使用 hive 查询来理解所有这些。

立即下载

【文件预览】：
Scout-master
----.project(364B)
----README.md(500B)
----pom.xml(1KB)
----.settings()
--------org.eclipse.jdt.core.prefs(587B)
--------org.eclipse.ltk.core.refactoring.prefs(104B)
----src()
--------com()
----.classpath(935B)
----.travis.yml(15B)

秒客网

Scout:抓取媒体网站的爬虫

网友评论

相关文章