webporter:基于 webmagic 的 Java 爬虫应用

时间:2024-06-04 03:52:18
【文件属性】:

文件名称:webporter:基于 webmagic 的 Java 爬虫应用

文件大小:66KB

文件格式:ZIP

更新时间:2024-06-04 03:52:18

elasticsearch kibana zhihu Java

webporter webporter 是一个基于垂直爬虫框架 的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。 webporter 寓意“我们不生产数据,我们只是互联网的搬运工~” 如果觉得不错,请先在这个仓库上点个 star 吧,这也是对我的肯定和鼓励,谢谢了。 目前只提供了知乎用户数据的爬虫示例。不定时进行调整和补充,需要关注更新的请 watch、star、fork webporter 的主要特色: 基于国产 Java 爬虫框架 webmagic,是众多 Python 爬虫中的一股清流 完全模块化的设计,强大的可扩展性 核心简单,但是涵盖爬虫应用的完整流程,是爬虫应用的实践样例 使用 JSON 配置,无需改动源码 支持多线程 支持向 Elasticsearch 批量导入 注意:webporter 不是爬虫框架,而是如何使用爬虫框架进行实战的样例


网友评论