CrawlerFJP:带有 ForkJoinPool 类的爬虫(Java)

时间:2024-07-01 01:57:12
【文件属性】:

文件名称:CrawlerFJP:带有 ForkJoinPool 类的爬虫(Java)

文件大小:11KB

文件格式:ZIP

更新时间:2024-07-01 01:57:12

Java

履带式FJP 带有 ForkJoinPool 类的爬虫 Web 爬虫使用 ForkJoinPool 类来并行化爬取站点的过程。 关于域的数据是从一个文件中读取的,在每个域上,爬虫访问的页面不超过 100 页,在对一个站点的请求之间有 1 秒的暂停。 默认情况下在 128 个线程中执行处理。 完成工作后,所有唯一链接都会写入 result.txt 文件。 要求: jdk 1.8+ 行家 3+ 构建项目: 解压项目源 在项目的根目录(源文件夹)执行命令: mvn clean assembly: assembly 在目标目录中将有一个准备运行的 crawler.jar 和一个包含域的 100DomainsForCrawling.txt 文件。 启动说明: 使用 128 个线程启动爬虫(默认): localhost> java -jar crawler.jar 可能的启动参数: lo


【文件预览】:
CrawlerFJP-master
----pom.xml(6KB)
----src()
--------main()
----.gitignore(908B)
----README.md(3KB)

网友评论