Distributed-Content-Harvesting-using-Thread-Pools下载

【文件属性】：

文件名称：Distributed-Content-Harvesting-using-Thread-Pools

文件大小：185KB

文件格式：ZIP

更新时间：2024-06-06 16:12:19

Java

使用线程池的分布式内容收获包含内容检索和解析的Web内容收集通常是分析任务（例如搜索，广告放置和相关性排名）的先兆。作为该项目的一部分，我开发了一种分布式内容收集器，该收集器使用线程池来检索和解析内容。该分布式收割机支持的功能包括：消除重复任务，分布式收割机之间的任务切换以及可配置的阈值，这些阈值可用于确定线程池的大小并在爬网期间控制递归深度。收集器还可以检测特定Web域中不相交的子图和断开的链接。（Java，Jericho HTML解析器） 1）在这个程序中，我所有的代码都放在两个包结构中： cs455 / harvester / *，给定的jar文件位于文件夹cs455 / harvester / lib / 提供的make文件将编译所有java文件。在具有文件夹cs455的目录中输入$ make命令 3）必须通过执行以下命令来手动运行注册表： $java -c

立即下载

【文件预览】：
Distributed-Content-Harvesting-using-Thread-Pools-master
----cs455()
--------harvester()
----README.md(1KB)
----Makefile(220B)

秒客网

Distributed-Content-Harvesting-using-Thread-Pools

网友评论