抓取指定的html

时间:2021-08-19 09:14:36

1.   Heritrix 简介

Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行工具来供用户选择调用。

Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月,并不断的被互联网档案馆和其他感兴趣的第三方改进着。到现在已经成为一个成熟的开源爬虫,并被广泛使用。

Heritrix的操作模型:

抓取指定的html

从模型中可以看到,利用Heritrix我们可以轻松从互联网上获取信息并将它们全部存储下来,然后可以任意的访问获取到的网页信息并可以查看报告。

 

Heritrix的整体结构简图如下:

抓取指定的html

它的工作流程是一个循环,具体流程是:

  1 在预定的URI中选择一个。

  2 从选择的URI的网址下载远程文件

  3 分析,归档下载到的内容

  4 从分析到的内容里面选择感兴趣的URI。加入预定队列。

  5 标记已经处理过的URI

 

在大概的了解了Heritrix及它的工作机制之后,我们就可以开始Heritrix的使用了。

 

2.   Heritrix 的配置与使用

 1)    安装与配置

从官方网站http://crawler.archive.org/下载最新版本的Heritrix运行包,解压到一个文件夹内。其中,Heritrix所用到的工具类库都存于lib下,另外,在Heritrix目录下有一个conf目录,其中包含了一个很重要的文件:heritrix.properties

heritrix.properties中配置了大量与Heritrix运行息息相关的参数,这些参数主要是配置了Heritrix运行时的一些默认工具类、WebUI的启动参数,以及Heritrix的日志格式等。当第一次运行Heritrix时,只需要修改该文件,为其加入WebUI的登录名和密码。在"heritrix.cmdline.admin="后面增加账户和密码,比如heritrix.cmdline.admin=admin:admin 。其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做为用户名密码。

新建一个文件Heritrix.cmd 作为启动Heritrix的命令文件,在文件内写入:

(假设文件夹路径为D:/heritrix

抓取指定的html

 

运行上述脚本,在浏览器输入http://localhost:8080/,输入之前设置的用户名密码,即可进入Heritrix管理页面。

 

2)    新建抓取任务

(1)       单击菜单栏上的“Jobs”标签,就可以进入任务创建页面。如下图所示:

抓取指定的html

 

(2)       在任务创建页面中,有4种创建任务的方式,具体含义如下:

Based on existing job:以一个已经有的抓取任务为模板,创建所有抓取属性和抓取起始URL的列表

Based on a recovery:在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始。

Based on a profile:专门为不同的任务设置了一些模板,新建的任务将按照模板来生成。

With defaults:这个最简单,表示按默认的配置来生成一个任务。

 

(3)       单击With defaults链接,创建一个新的抓取任务。

(4)       在新建任务的名称上,填入任务名称。在Description中随意填入字符,然后再在seeds框中,填入待抓取的起始网址。如下图所示:

抓取指定的html

 

(5)       单击“Modules”按钮,就进入了配置抓取时的处理链的页面。

在倒数第三项 "Select Writers "内删除默认的"org.archive.crawler.writer.ARCWriterProcess”,加 "org.archive.crawler.writer.MirrorWriterProcessor",这样执行任务的时候抓取到的页面会以镜像的方式放在本地的目录结构中,而不是生成ARC存档文件。如下图:

抓取指定的html

 

(6)       单击“Settings” 按钮,进入了属性设置的页面。

在属性设置页面上有非常多的输入域,Heritrix在抓取网页时,这些域是用来对的各个组件的值进行预设。由于页面上的内容非常多,使用者可能无法全部了解它们的作用。所以Heritrix提供了一个辅助功能,来在最大程度上让使用者了解每个参数的含义。在每个属性的右侧都有一个小问号,当单击问号时,就会弹出一个JavascriptAlert提示框,上面介绍了当前属性的作用。

当在第一次使用Heritrix时,所需要设置的参数并不多,以默认设置为主。但有一些参数是必须在第一次使用时就设置好的,就是HTTP-Header这个属性域。

如下图所示,红色框内是修改前后对照。其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址,“from”中设置自己的合法email地址,这两项设置其实可随便设置,只要格式规则合法即可。图中的@VERSION@设置为1.12.1,即1.12.1版本的。

 抓取指定的html

(7)       设置完成后,点击“Submit job”,即完成全部任务的建立工作。 这时就可以在Console页面中点击start启动任务。

 

抓取到的所有文件在” %Heritrix_HOME%/jobs/任务名-任务时间/mirror”这个路径下,按照域名分开存放。

 

 

3.   Heritrix 的扩展开发

1)   
Heritrix 结构分析

抓取指定的html

        

从上图可以看出,Heritrix总体上是一个平台结构,内部的组件都具有松耦合的特点。任何一个部分都可以进行拆卸并替换,这就给我们进行基于Heritrix的自定义开发提供了条件。

 

下面简单介绍一下每个组件的作用

1.      CrawlController

CrawlController(*控制器)是抓取任务的核心组件,它控制着整个抓取的流程。

 

2.      CrawlOrder

CrawlOrder (抓取任务)是整个抓取工作的起点,它记录了任务的所有属性,即在创建任务时的一系列设置。


3.      Frontier

Frontier (链接制造工厂)负责所有链接的处理。将已经爬过的URI做标记,并将未处理的链接放入待处理队列。

 

4.      ToeThread

ToeThread(处理线程)Heritrix是多线程的,每个 URL 被一个线程处理,这个线程就叫做 ToeThread,每个线程都会包括一条处理链,如下图所示。

 

5.       Processor

Processor(处理器)代表着单个的处理器,所有的处理器都是它的子类。它包括以下几种:PreProcessor(预处理器)、Fetcher(获取器)、Extractor(抽取器)、Writer(存储器)、PostProcessor(后处理器)。

                                                           抓取指定的html

 

 

 

 

 

 

2)    Heritrix 的组件开发

在使用Heritrix的过程中,可能会需要一些特定功能,比如说只想抓取一个域名下的网页等。这时就需要扩展原有的Heritrix,自己写一些组件来满足这些要求。

 

(1)   扩展FrontierScheduler

首先在Heritrix工程中创建类包my. processor. ,之后新建类MyFrontierScheduler。代码如下:


抓取指定的html

 

         之后打开Heritrix目录下的module文件夹,里面是所有模块的配置文件。打开Processor.options,在里面加入一行my. processor.MyFrontierScheduler|MyFrontierScheduler。然后保存退出,之后你就可以在新建任务的时候选择使用自己扩展的FrontierScheduler了。

 

 

(2)   扩展MirrorWriterProcessor

有的时候我们需要在网页下载之前将网页进行分析并提取有效内容存储起来,这时我们可以扩展MirrorWriterProcessor这个模块。利用一个开源的包htmlparser分析网页结构,并将结果存储起来。htmlparser可以在http://htmlparser.sourceforge.net 获得。将下载的包添加到项目的引用列表中。

新建MyMirrorWriterProcessor,将之前MirrorWriterProcessor的代码复制过来,改掉类名及构造函数的名称。添加新的引用:

抓取指定的html

新建一个方法AnalysisFile(),在writeToPath这个函数中调用它:

抓取指定的html

 

 之后就可以在AnalysisFile()中处理dest这个文件,将其进行分析并保存为想要的格式。以下例子将其去掉Html标签之后封装进一个XML文件:

抓取指定的html

4.   Heritrix 的常用技巧

1)    只保存html类型的文件

对于大多数的搜索引擎,我们所要做的只是对于纯文本的搜索。因此只需要保存html类型的内容。Heritrix的官方文档”Heritrix User Manual”中给出了一个解决方案

         在新建任务时点击”submodules”,如下图:

抓取指定的html

     添加一个新的规则,类型为NotMatchesFilePatternDecideRule,并将其放置在PrerequisiteAccept-

DecideRule之前,不然dns将不会被正确解析。之后在设置面板中如下设置:

抓取指定的html

这样设置之后,爬虫就会只抓取html类型的文件,而将其它类型的文件都忽略掉。

 

2)    Queue-assignment-policy的设置。

当我们设置了在特定的域名下爬行的时候,经常会碰到永远只有一个线程在运行的情况,导致爬行十分缓慢。这是因为在默认的情况下,Heritrix使用HostnameQueueAssignmentPolicy来产生key值,从这个策略的名字,我们也可以很容易的看出,keyhostname是有关系的。而事实上,这个策略正是用hostname作为key值的。因此一个域名下的所有链接都会放到同一个线程中去。

为解决这个问题,我们新建一个策略:

抓取指定的html

这样用ELF hash算法把url尽量平均分部到各个队列中去,采集的速度大大的加快了。

 

 

 

参考资料:

1.   Gordon Mohretal : An introduction to Heritrix. Accessed Apr 2009.

http://crawler.archive.org/An%20Introduction%20to%20Heritrix.pdf

2.    Wikipedia Heritrix Homepage. Accessed Apr 2009.    http://en.wikipedia.org/wiki/Heritrix

3.    John Erik Halse : Heritrix developer documentation. Accessed Apr 2009.

http://crawler.archive.org/articles/developer_manual.html

4.    Kristinn Sigurđsso: Heritrix User Manual. Accessed Apr 2009.

http://crawler.archive.org/articles/user_manual/index.html

5.    邱哲 符滔滔:《开发自己的搜索引擎-Lucene 2.0+Heritrix人民邮电出版社 ISBN:711516000