文件名称:非常垃圾的Java爬虫项目
文件大小:3.29MB
文件格式:ZIP
更新时间:2017-06-02 05:32:43
JAVA爬虫 网络爬虫
个人写的垃圾的爬虫项目,现在遇到瓶颈了,很多东西都已经想好了,但是不知道具体应该怎么写,希望那位大神看到后能给点评一下,给出之后的扩展方案.现在准备添加登陆内容获取,JS内容生成为正常的Document树.使用NoSql构建去重库. 取到链接.查看去重库中是否存在,如存在则不加入到List中.还有.感觉List不是一个很好的方式,希望大神给出代替方案...
【文件预览】:
JavaScrapy
----mongo-java-driver-2.12.1.jar(574KB)
----bin()
--------1688.xml(227B)
--------com()
--------key.txt(40B)
----httpcore-4.2.4.jar(222KB)
----dom4j-1.6.1.jar(307KB)
----title(19B)
----commons-logging-1.1.1.jar(59KB)
----fastjson-1.1.33-sources.jar(243KB)
----httpclient-4.2.5.jar(423KB)
----httpmime-4.2.5.jar(26KB)
----.settings()
--------org.eclipse.jdt.core.prefs(629B)
----jsoup-1.6.0.jar(273KB)
----src()
--------1688.xml(227B)
--------com()
--------key.txt(40B)
----httpclient-cache-4.2.5.jar(113KB)
----.project(386B)
----.classpath(1KB)
----commons-codec-1.6.jar(227KB)
----fluent-hc-4.2.5.jar(21KB)
----mysql-connector-java-5.1.21.jar(809KB)
----fastjson-1.1.33.jar(343KB)