crawler4j java多线程网页爬虫

j网上对于crawler4j这个爬虫的使用的文章很少，Google到的几乎没有，只能自己根据crawler4j的源码进行修改。这个爬虫最大的特点就是简单易用，他连API都不提供。刚开始的时候实在恨不能适应。好在他的源码也提供了几个例子。对于一般的应用大可以直接修改它的例子。

废话少说。源码可以从SVN直接下载： https://crawler4j.googlecode.com/svn/trunk/

使用方法很简单，直接用Eclipse打开工程。可以看到src下有三个demo例子。说一下最简单的simple例子。

使用crawler4j的关键的继承WebCrawler类实现自己的爬虫类MyCrawler，然后根据需要覆盖WebCrawler的几个函数就可以了。

public boolean shouldVisit(WebURL url) // 根据url进行网页的解析，对返回为TRUE的网页进行抓取。

public void visit(Page page) // 解析网页内容，page类包含了丰富的方法，可以利用这些方法得到网页的内容和属性。

这些在http://code.google.com/p/crawler4j/ 有详细的解释。

Crawler包
Crawler.CrawController 控制爬虫，先addseed，再开启多个爬虫，并不断监听各个爬虫存活状态。
Crawler.WebCrawler 爬虫
1. Run()：不断循环，每次从Frontier拿50条url，对每条url，processPage(curUrl)。
2. processPage(curURL)：用PageFetcher.fetch爬取网页，如果curURL有redirect，则将redirect url的url加入Frontier，以后再调度；如果爬取正常，则先进行parse，生成Page，将新urls降入Frontier(新加入url的深度此时确定)，调用visit(Page){用户自定义操作}。
Crawler.Configurations 读取crawler4j.properties中的信息
Crawler.PageFetcher 启动IdleConnectionMonitorThread，用fetch(Page, ignoreIfBinary)，爬取单个Page页面。是一个static类。
Crawler.Page 一个页面
Crawler.PageFetchStatus 单个页面爬取的配置，如返回爬取状态数字所代表的含义等等。
Crawler.HTMLParser 对HTML源码进行parse，存入Page中。
Crawler.LinkExtractor 抽取出一个HTML页面中包含的所有link。
Crawler.IdleConnectionMonitorThread 用来监听连接器（用来发送get请求，获取页面），其connMgr则负责HTML请求的发送。

url包
url.WebURL 代表一条url，内含docid, depth, url值
url.URLCanonicalizer 将url进行normalize

Frontier包
Frontier.Frontier
Init() 如果resumable，则从env所指home中读取已处理过得urls，scheduleAll加入调度workQueue中。
Frontier.workQueues 要处理的页面集，如果resumable，在构造时会打开对应env中的database(PendingURLsDB)，获取上一次遗留的未处理的urls。
Frontier.inprocessPages 当前正在处理的页面集，继承workQueues，存入InProcessPagesDB数据库。
Frontier.DocIDServer 对应数据库DocIDs，记录已经见过的页面url。
处理流程：newurl--->workQueues--->inprovessPages--->delete

Robotstxt包，用来判断url是否被允许。

Util包，用来提供一些小工具。

注意点：
1. seed页面深度为0。
2. url去重利用的是DocIDServer.newdocid(url)，如果该值大于0，则表示该url以前见过。通过这个机制，所有以前见过的页面都可以被记录识别。
3. 当设定resumable后，程序跑完后就会把PendingURLsDB和DocIDs保存下来。
4. 如果不设定resumable，在运行程序前，会把env对应的home目录清空。

秒客网

crawler4j java多线程网页爬虫

相关文章