dataCatcher:使用WebCollector的爬虫!

时间:2024-06-05 03:27:40
【文件属性】:

文件名称:dataCatcher:使用WebCollector的爬虫!

文件大小:6.9MB

文件格式:ZIP

更新时间:2024-06-05 03:27:40

crawler bigdata webapp Java

dataCatcher A crawler using WebCollector getting data from dl.acm.org 数据库连接配置 在 db.properties 中进行配置 结构:Catcher+Dao Catcher:爬虫具体逻辑层 Dao:数据持久层 在Catcher.java的main方法中配置爬虫参数,包括: 线程数量 setThreads(int); 深度设置 start(int); 断点爬取 setResumable(true); 默认为false,每次启动爬虫都会重新爬取,true 从断点处继续爬取。 搭建环境 建议使用intellij idea,同时使用Maven,jdk 1.7+ 请先clone dev分支以进行使用! 持续更新


【文件预览】:
dataCatcher-master
----dataCatcher.iml(2KB)
----src()
--------spring-config.xml(1KB)
--------test()
--------db.properties(158B)
--------main()
----lib()
--------je-5.0.73.jar(2.37MB)
--------juniversalchardet-1.0.3.jar(216KB)
--------spring-tx-4.3.5.RELEASE.jar(261KB)
--------json-20140107.jar(63KB)
--------commons-dbcp-1.4.jar(157KB)
--------jsoup-1.9.2.jar(312KB)
--------WebCollector-2.40-beta.jar(91KB)
--------spring-jdbc-4.3.5.RELEASE.jar(417KB)
--------log4j-1.2.17.jar(478KB)
--------commons-pool-1.5.4.jar(94KB)
--------spring-beans-4.3.5.RELEASE.jar(744KB)
--------junit-4.11.jar(239KB)
--------mysql-connector-java-5.1.40.jar(968KB)
--------hamcrest-core-1.3.jar(44KB)
--------spring-core-4.3.5.RELEASE.jar(1.06MB)
--------slf4j-api-1.7.21.jar(40KB)
--------slf4j-log4j12-1.7.21.jar(10KB)
--------commons-logging-1.2.jar(60KB)
----.idea()
--------libraries()
--------misc.xml(454B)
--------compiler.xml(647B)
--------uiDesigner.xml(9KB)
--------inspectionProfiles()
--------modules.xml(262B)
--------vcs.xml(180B)
----README.md(629B)
----catcher()
--------je.lck(0B)
--------00000000.jdb(23KB)
--------je.info.0(0B)
----pom.xml(656B)

网友评论