Spider爬虫

时间:2016-04-20 17:31:16
【文件属性】:

文件名称:Spider爬虫

文件大小:1.65MB

文件格式:ZIP

更新时间:2016-04-20 17:31:16

爬虫 httpclient

Spider,是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数据包括标题、长度、文件建立时间、HTML文件中的各种链接数目等


【文件预览】:
java爬虫资料
----还给了教程.zip(579KB)
----JAVA-用HttpClient来模拟浏览器GET_POST.doc(185KB)
----HttpClient介绍和使用文档.doc(104KB)
----爬虫包.zip(1.04MB)

网友评论