dataCatcher:使用WebCollector的爬虫！下载

【文件属性】：

文件名称：dataCatcher:使用WebCollector的爬虫！

文件大小：6.9MB

文件格式：ZIP

更新时间：2024-06-05 03:27:40

crawler bigdata webapp Java

dataCatcher A crawler using WebCollector getting data from dl.acm.org 数据库连接配置在 db.properties 中进行配置结构：Catcher+Dao Catcher：爬虫具体逻辑层 Dao：数据持久层在Catcher.java的main方法中配置爬虫参数，包括：线程数量 setThreads(int); 深度设置 start(int); 断点爬取 setResumable(true); 默认为false,每次启动爬虫都会重新爬取，true 从断点处继续爬取。搭建环境建议使用intellij idea，同时使用Maven，jdk 1.7+ 请先clone dev分支以进行使用！持续更新

立即下载

【文件预览】：
dataCatcher-master
----dataCatcher.iml(2KB)
----src()
--------spring-config.xml(1KB)
--------test()
--------db.properties(158B)
--------main()
----lib()
--------je-5.0.73.jar(2.37MB)
--------juniversalchardet-1.0.3.jar(216KB)
--------spring-tx-4.3.5.RELEASE.jar(261KB)
--------json-20140107.jar(63KB)
--------commons-dbcp-1.4.jar(157KB)
--------jsoup-1.9.2.jar(312KB)
--------WebCollector-2.40-beta.jar(91KB)
--------spring-jdbc-4.3.5.RELEASE.jar(417KB)
--------log4j-1.2.17.jar(478KB)
--------commons-pool-1.5.4.jar(94KB)
--------spring-beans-4.3.5.RELEASE.jar(744KB)
--------junit-4.11.jar(239KB)
--------mysql-connector-java-5.1.40.jar(968KB)
--------hamcrest-core-1.3.jar(44KB)
--------spring-core-4.3.5.RELEASE.jar(1.06MB)
--------slf4j-api-1.7.21.jar(40KB)
--------slf4j-log4j12-1.7.21.jar(10KB)
--------commons-logging-1.2.jar(60KB)
----.idea()
--------libraries()
--------misc.xml(454B)
--------compiler.xml(647B)
--------uiDesigner.xml(9KB)
--------inspectionProfiles()
--------modules.xml(262B)
--------vcs.xml(180B)
----README.md(629B)
----catcher()
--------je.lck(0B)
--------00000000.jdb(23KB)
--------je.info.0(0B)
----pom.xml(656B)

秒客网

dataCatcher:使用WebCollector的爬虫！

网友评论

相关文章