文件名称:多Agent主题爬虫协作策略的研究与分析 (2013年)
文件大小:762KB
文件格式:PDF
更新时间:2024-05-28 01:16:21
自然科学 论文
在多个Web主题爬虫并行爬行中,如何避免重复访问网页并高效地获取与主题相关网页,成为搜索引擎主题爬行的热点研究内容之一。为完成系统爬行任务充分发挥每个爬虫自身能力,文章立足于每个爬虫相对独立爬行、共同协作、彼此竞争的思想,将爬虫的历史爬行网页作为背景知识,分析这些网页文本内容,提取网页中“概念”和概念间的语义关系,探讨不同爬虫背景知识之间的语义相似性,提出基于分层概念背景图的爬虫之间理解方法、协作和竞争策略。该策略包括4个方面的内容:主题爬虫背景知识的分层概念背景图的表示模型、基于分层概念背景图的爬虫语义