网络爬虫用堆栈队列贮存url

时间:2015-03-09 05:19:35
【文件属性】:

文件名称:网络爬虫用堆栈队列贮存url

文件大小:1.1MB

文件格式:ZIP

更新时间:2015-03-09 05:19:35

HtmlClientHtmlParser网络爬虫

网络爬虫,初学必看,用链表实现贮存待捉的url队列,用堆栈检查url是否已经捉了。用了HtmlClient和HtmlParser实现。


【文件预览】:
commons-logging-1.1.1.jar
PiderOne
----temp()
--------www.twt.edu.cn.html(80KB)
----src()
--------Queue.java(567B)
--------LinkFilter.java(77B)
--------LinkQueue.java(1KB)
--------HtmlParserTool.java(2KB)
--------DownLoadFile.java(3KB)
--------MyCrawler.java(2KB)
----bin()
--------LinkQueue.class(1KB)
--------HtmlParserTool$1.class(793B)
--------MyCrawler.class(2KB)
--------DownLoadFile.class(4KB)
--------Queue.class(928B)
--------MyCrawler$1.class(699B)
--------HtmlParserTool.class(3KB)
--------LinkFilter.class(142B)
----.classpath(1KB)
----.settings()
--------org.eclipse.jdt.core.prefs(629B)
----.myeclipse()
--------profiler()
----.project(384B)
junit-3.8.1.jar
log4j-1.2.11.jar
htmllexer.jar
htmlparser.jar
filterbuilder.jar
commons-codec-1.5.jar
thumbelina.jar
commons-httpclient-3.0.1.jar
sitecapturer.jar

网友评论

  • 还行。。可以作为一个参考。。。