文件名称:java源码网络爬虫-crawler4j:Java的开源简单Web爬网程序。简单灵活轻巧
文件大小:57KB
文件格式:ZIP
更新时间:2024-06-13 19:27:56
系统开源
java源码 网络爬虫 #Crawler4j是使用JAVA开发的开源Web爬虫 ###Crawler4j通过配置文件配置抓取任务,然后使用多线程进行抓取的Web爬虫.每个抓取任务使用独立线程上下文,支持在配置文件中同时配置多个抓取任务,复杂的抓取任务可通过扩展框架提供的基类实现,可以方便的将爬虫和其他解析存储程序进行集成. ####使用方法请参考 crawler4j-simple 模块 ##It's composed of two parts: crawler4j-core: crawler4j core module. crawler4j-simple: a simple WEB crawler implementation base on crawler4j-core. ================================================================ Quick Start 0.Install the git and maven command line: yum install git or: apt-get install git
【文件预览】:
crawler4j-master
----crawler4j-simple()
--------src()
--------pom.xml(4KB)
----.gitignore(245B)
----LICENSE(11KB)
----pom.xml(5KB)
----crawler4j-core()
--------src()
--------pom.xml(5KB)
----README.md(4KB)
----NOTICE(1KB)