文件名称:Crawler:网络爬虫
文件大小:57KB
文件格式:ZIP
更新时间:2024-06-30 15:23:02
Java
履带式 WebCrawler 爬虫 WebCrawler 多线程 Java 网络爬虫 (设计选择是为了提高速度或减少内存消耗) 协调线程将要处理的 URL 传递给工作线程。 工作线程下载 HTML 页面,解析它们,并从页面中提取信息和链接。 链接 URL 被返回给协调线程。 协调线程将 URL 包装在爬网作业中,并将爬网作业传递给工作线程。 工作线程位于线程池中。 爬网作业对象实现 Runnable 或 Callable 接口,这取决于爬虫的具体设计。 当每个页面被不同的线程下载和处理时,则可以同时下载和处理多个页面。 这可以更好地利用带宽和 CPU。 也没有多少空闲时间。 CPU 和带宽大部分时间都用于下载或解析页面。
【文件预览】:
Crawler-master
----StatiqWebCrawler()
--------src()
--------StatiqWebCrawler.iml(2KB)
----src()
--------Tests()
--------HTMLops()
--------Interfaces()
----WebCrawler.iml(2KB)
----Tests()
--------Tests.iml(425B)
----.idea()
--------libraries()
--------misc.xml(465B)
--------compiler.xml(711B)
--------uiDesigner.xml(9KB)
--------workspace.xml(46KB)
--------.name(10B)
--------encodings.xml(166B)
--------modules.xml(262B)
--------scopes()
--------copyright()
--------vcs.xml(169B)
----README.md(1006B)
----Objects()
--------src()
--------Objects.iml(1KB)
----out()
--------production()