李开复博客爬虫

时间:2021-11-25 15:37:33
【文件属性】:
文件名称:李开复博客爬虫
文件大小:5.6MB
文件格式:ZIP
更新时间:2021-11-25 15:37:33
java爬虫 抓取李开复的博客,抓取内容包括抓文章标题、发表时间、正文内容、文章URL和标签,支持控制台输出和磁盘输出
【文件预览】:
Spider
----.project(382B)
----src()
--------jingtai()
----lib()
--------fastjson-1.2.49.jar(548KB)
--------commons-lang3-3.1.jar(308KB)
--------webmagic-core-0.7.3.jar(96KB)
--------assertj-core-1.5.0.jar(563KB)
--------jsoup-1.10.3.jar(347KB)
--------slf4j-log4j12-1.7.6.jar(9KB)
--------commons-pool2-2.4.2.jar(109KB)
--------asm-5.0.4.jar(52KB)
--------log4j-1.2.17.jar(478KB)
--------slf4j-api-1.7.6.jar(28KB)
--------junit-4.11.jar(239KB)
--------httpclient-4.5.2.jar(719KB)
--------hamcrest-core-1.3.jar(44KB)
--------xsoup-0.3.1.jar(55KB)
--------commons-io-1.3.2.jar(86KB)
--------jedis-2.9.0.jar(541KB)
--------accessors-smart-1.2.jar(29KB)
--------webmagic-extension-0.7.3.jar(97KB)
--------json-path-2.4.0.jar(218KB)
--------fastjson-1.2.28.jar(448KB)
--------commons-logging-1.2.jar(60KB)
--------httpcore-4.4.4.jar(319KB)
--------commons-codec-1.9.jar(258KB)
--------json-smart-2.3.jar(117KB)
--------commons-collections-3.2.2.jar(575KB)
----.settings()
--------org.eclipse.jdt.core.prefs(598B)
--------org.eclipse.core.resources.prefs(132B)
----.classpath(2KB)
----bin()
--------jingtai()

网友评论