文件名称:用httpclient,httpparse实现的网络爬虫源码
文件大小:5KB
文件格式:RAR
更新时间:2018-03-25 11:43:45
httpclient httpparse 源码
网络爬虫,用httpclient,httpparse实现。httpclient用于下载爬取数据到本地,httpparse用于解析爬取的数据。采用深度优先爬取策略。一共有五个类,比较重要的类都有自己的测试代码。代码清晰可读性强,注释比较全。参考性强。
【文件预览】:
spider
----Queue.java(483B)
----FileDownLoader.java(5KB)
----LinkDB.java(978B)
----HtmlParserTool.java(4KB)
----Crawler.java(1KB)