领域相关的 Web网站抓取方法

时间:2013-10-06 14:51:11
【文件属性】:

文件名称:领域相关的 Web网站抓取方法

文件大小:471KB

文件格式:PDF

更新时间:2013-10-06 14:51:11

Meta-Search(元搜索) ,聚焦爬虫( Focused Crawler) ,启发式搜索;网络爬虫

  本文提出了一种抓取领域相关的 Web站点的方法 ,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫( Focused Crawler)技术 ,首先利用 Meta2Search技术来改进传统 Crawler 的通过链接分析来抓取网页的方法 ,而后利用启发式搜索大大降低了搜索代价 ,通过引入一种评价领域相关性的打分方法 ,达到了较好的准确率。本文详细地描述了上述算法并通过详细的实验验证了算法的效率和效果。


网友评论

  • 确实没有相关的代码,但也为我的毕业设计做了参考
  • 把理论讲的很清楚,有点不好的就是没有相关的代码