文件名称:领域相关的 Web网站抓取方法
文件大小:471KB
文件格式:PDF
更新时间:2013-10-06 14:51:11
Meta-Search(元搜索) ,聚焦爬虫( Focused Crawler) ,启发式搜索;网络爬虫
本文提出了一种抓取领域相关的 Web站点的方法 ,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫( Focused Crawler)技术 ,首先利用 Meta2Search技术来改进传统 Crawler 的通过链接分析来抓取网页的方法 ,而后利用启发式搜索大大降低了搜索代价 ,通过引入一种评价领域相关性的打分方法 ,达到了较好的准确率。本文详细地描述了上述算法并通过详细的实验验证了算法的效率和效果。