文件名称:webMagicDemo:webMagic爬行动物演示
文件大小:17.8MB
文件格式:ZIP
更新时间:2024-06-04 15:54:43
Java
webMagicDemo webMagic 爬虫demo 1.没有使用代理,导致出现多次ip访问异常,免费的代理不稳定,几乎不能用 2.多线程这块爬虫还是做的不错的 3.对知乎 csdn 天天基金都有爬过,结构还是挺好爬的 4.基本使用jsoup来解析html,但也有些采用xpath,两者各有长处 5.同时实现的pieline是用es引擎存储数据 6.通过部署kibana来统计分析爬完的数据,曾分析知乎用户性别,用户文章数,问题数,粉丝数等,还有基金网的净值排名等 7.框架不太好的地方是 出现异常 不好定位,只是抛出了异常,没有打印具体信息这个需要日后优化
【文件预览】:
webMagicDemo-master
----.gitignore(5B)
----src()
--------entity()
--------webMagicTest()
--------utils()
--------log4j.properties(1KB)
--------pipeline()
----.classpath(3KB)
----.settings()
--------org.eclipse.jdt.core.prefs(587B)
----README.md(700B)
----.project(371B)
----lib()
--------fastjson-1.2.28.jar(448KB)
--------commons-pool2-2.4.2.jar(109KB)
--------jedis-2.9.0.jar(541KB)
--------httpclient-4.5.2.jar(719KB)
--------commons-codec-1.9.jar(258KB)
--------webmagic-core-0.7.2.jar(95KB)
--------ocr_sdk-1.3.6.jar(42KB)
--------slf4j-log4j12-1.7.6.jar(9KB)
--------json-20160810.jar(53KB)
--------slf4j-api-1.7.6.jar(28KB)
--------commons-lang-2.6.jar(278KB)
--------spring-context-4.3.9.RELEASE.jar(1.09MB)
--------commons-beanutils-1.8.3.jar(227KB)
--------quartz-2.3.0.jar(675KB)
--------commons-logging-1.2.jar(60KB)
--------json-path-0.8.1.jar(65KB)
--------json-smart-1.1.1.jar(50KB)
--------junit-4.11.jar(239KB)
--------xsoup-0.3.1.jar(55KB)
--------commons-lang3-3.1.jar(308KB)
--------redisson-all-3.6.2.jar(11.08MB)
--------commons-collections-3.2.2.jar(575KB)
--------log4j-1.2.17.jar(478KB)
--------hamcrest-core-1.3.jar(44KB)
--------webmagic-extension-0.7.2.jar(97KB)
--------spring-core-4.3.9.RELEASE.jar(1.07MB)
--------commons-io-1.3.2.jar(86KB)
--------httpcore-4.4.4.jar(319KB)
--------jsoup-1.8.3.jar(308KB)
--------assertj-core-1.5.0.jar(563KB)