文件名称:web-spider:java学习实现Scrapy爬虫框架设计
文件大小:6.05MB
文件格式:ZIP
更新时间:2024-06-03 07:51:13
Java
爬虫框架设计 设计 爬虫生命周期:下载、处理、管理和持久化等功能。 spider控制组件,让它们可以互相交互,流程化的执行。 2. 结构 Download 负责从互联网上下载页面,以便后续处理。 PageProcess 负责解析页面,抽取信息,以及发现新的辅助URL。 SchedulManager 负责管理待抓取的URL,以及一些去重的工作。(jdk队列或者Redis) ResultOutput ResultOutput负责抽取结果的处理,包括计算、持久化到文件、数据库等。 3. 使用 public static void main(String[] args) { Spider.create(new GithubProcessor()) .addUrl("https://github.com/junicore") //使用Redis
【文件预览】:
web-spider-master
----.settings()
--------org.eclipse.core.resources.prefs(57B)
--------org.eclipse.jdt.core.prefs(598B)
----src()
--------test()
--------resources()
--------cn()
----.project(387B)
----.classpath(2KB)
----.gitignore(6B)
----lib()
--------commons-collections-3.2.1.jar(562KB)
--------httpcore-4.3.2.jar(276KB)
--------guava-15.0.jar(2.07MB)
--------assertj-core-1.5.0.jar(563KB)
--------httpclient-4.3.3.jar(576KB)
--------fastjson-1.1.37.jar(348KB)
--------commons-pool-1.5.5.jar(98KB)
--------json-path-0.8.1.jar(65KB)
--------junit-4.11.jar(239KB)
--------json-smart-1.1.1.jar(50KB)
--------slf4j-log4j12-1.7.6.jar(9KB)
--------slf4j-api-1.7.6.jar(28KB)
--------hamcrest-core-1.3.jar(44KB)
--------commons-lang-2.6.jar(278KB)
--------xsoup-0.2.4.jar(39KB)
--------commons-logging-1.1.3.jar(61KB)
--------jedis-2.0.0.jar(123KB)
--------commons-codec-1.6.jar(227KB)
--------commons-io-1.3.2.jar(86KB)
--------log4j-1.2.17.jar(478KB)
--------commons-lang3-3.1.jar(308KB)
--------jsoup-1.7.2.jar(287KB)
----README.md(1KB)