文件名称:java爬虫程序
文件大小:22KB
文件格式:ZIP
更新时间:2010-09-22 16:14:47
java 搜索 爬虫 蜘蛛
Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。
【文件预览】:
GetGraphics.java
GPL.txt
ServerStressTest.java
build.xml
bplatt
----spider()
--------PageInfo.java(4KB)
--------SimpleHTMLToken.java(2KB)
--------SimpleHTMLParser.java(5KB)
--------Arachnid.java(6KB)
--------WebPageXtractor.java(4KB)
SimpleSiteMapGen.java
Arachnid.html
readme.txt