文件名称:RexCrawler:一个极简的 Java 多线程爬虫 API
文件大小:14KB
文件格式:ZIP
更新时间:2024-07-04 17:50:59
Java
雷克斯爬行者 一个用于 Java 的简约多线程爬虫 API。 分散其简约的结构,此爬虫基于 Java ForkJoin 框架,该框架允许 RexCrawler 通过将其本地工作负载分区来按需创建其他守护进程。 这种方法的一个关键好处是更好地控制粒度和更少的同步。 入门 关于如何使用 RexCrawler 的简要概述。 它非常简单,您可以跳转到并使用javadoc -d doc/ -protected -sourcepath src/ org.rexcrawler生成 Javadoc 定义处理程序 处理程序(扩展CrawlerHandler的类)允许您控制搜索流程。 特别是您从各种 HTTP 响应中收集的内容以及将提交哪些 URL 以继续搜索。 为了解析字符串,提供了一个简单的。 CrawlerHandler 的最简单实现如下所示: public class MyHandler
【文件预览】:
RexCrawler-master
----src()
--------org()
----README.md(5KB)